色翁荡息又大又硬又粗又视频软件,人人妻人人爽.,人人妻人人狠人人爽天天综合网,欧美精品亚洲精品日韩已满十八 ,欧美激情猛片xxxⅹ大3

人人影視落幕,魷魚(yú)游戲殺瘋: 要什么字幕,AI配音5秒生成

【導(dǎo)讀】今年,《魷魚(yú)游戲》大火。隨著Netflix等流媒體的興起,非英語(yǔ)作品也越來(lái)越多。然而,字幕和配音行業(yè)的人才卻非常緊缺,尤其是小語(yǔ)種直譯方面。為此,不管是Netflix,還是小型的本地化供應(yīng)商,都在探索能不能用AI配音技術(shù)代替人工字幕。

一個(gè)時(shí)代,終究還是落幕了。

11月22日,上海第三中院對(duì)「人人影視字幕組」侵權(quán)案進(jìn)行公開(kāi)審理,并當(dāng)庭作出一審判決。

以侵犯著作權(quán)罪判處被告人梁永平有期徒刑三年六個(gè)月,并處罰金人民幣一百五十萬(wàn)元。

違法所得予以追繳,扣押在案的供犯罪所用的本人財(cái)物等予以沒(méi)收。

前段時(shí)間,韓國(guó)反烏托邦題材劇集《魷魚(yú)游戲》(Squid Game)可謂是相當(dāng)火爆,上線1個(gè)月播放量就達(dá)到了1.42億,霸榜90個(gè)國(guó)家和地區(qū)。

Netflix也為其提供了多達(dá)31種語(yǔ)言的字幕和13種語(yǔ)言的配音。

然而韓裔美籍喜劇演員Youngmi Mayer卻發(fā)現(xiàn)《魷魚(yú)游戲》的官方字幕過(guò)于離譜,完全就是詞不達(dá)意。

就比如說(shuō),當(dāng)女演員用韓語(yǔ)表示「看什么看」,Netflix 的英文字幕翻譯為「走開(kāi)」。

隨著Netflix等流媒體的興起,像是《魷魚(yú)游戲》這類(lèi)的非英語(yǔ)作品也越來(lái)越多。

然而,字幕和配音行業(yè)的人才卻非常緊缺,尤其是小語(yǔ)種直譯方面。

還是以《魷魚(yú)游戲》為例,如果想將其推向西班牙語(yǔ)市場(chǎng),通常會(huì)先輸出英文版的字幕,然而再在這個(gè)基礎(chǔ)上進(jìn)行法語(yǔ)翻譯。

也就是說(shuō),部分語(yǔ)種字幕的質(zhì)量完全取決于英文的翻譯如何,而這個(gè)轉(zhuǎn)化過(guò)程難免會(huì)丟失很多信息細(xì)節(jié)。

據(jù)統(tǒng)計(jì),《魷魚(yú)游戲》的配音版比字幕版的觀看人數(shù)還要多。

為此,不管是Netflix這樣的流媒體巨頭,還是一些小型的本地化服務(wù)供應(yīng)商,都在探索能不能用AI技術(shù)代替人工翻譯。

那么,AI到底是能行,還是不能行?

這就得從Deepfake Voice是什么開(kāi)始說(shuō)起了。

Deepfake Voice

復(fù)制或克隆一個(gè)人的聲音,常用到的一項(xiàng)技術(shù)叫Deepfake Voice,也稱為語(yǔ)音克隆或合成語(yǔ)音,其目的是使用AI生成一個(gè)人的語(yǔ)音。

目前,這項(xiàng)技術(shù)已經(jīng)發(fā)展到可以在音調(diào)和相似度上非常精確地復(fù)制人聲的地步。

什么是聲音克?。?/strong>

聲音克隆是一個(gè)過(guò)程,在這個(gè)過(guò)程中,人們使用計(jì)算機(jī)生成真實(shí)個(gè)體的語(yǔ)音,使用人工智能(AI)創(chuàng)建一個(gè)特定的、獨(dú)特的聲音的克隆。

要克隆某人的聲音,必須有訓(xùn)練數(shù)據(jù)輸給人工智能模型。這些數(shù)據(jù)通常記錄了目標(biāo)人說(shuō)話的例子。

人工智能可以使用這些數(shù)據(jù)來(lái)呈現(xiàn)一個(gè)真實(shí)的聲音,比如可以用文字鍵入的任何東西生成一段語(yǔ)音,這個(gè)過(guò)程稱為文本到語(yǔ)音。

在以往的文本到語(yǔ)音(TTS)系統(tǒng)中,訓(xùn)練數(shù)據(jù)是關(guān)鍵組成部分,它控制了語(yǔ)音輸出的產(chǎn)生。換句話說(shuō),你聽(tīng)到的聲音就應(yīng)該是數(shù)據(jù)集中給出的聲音。

不過(guò)現(xiàn)在,隨著最新AI技術(shù)的引入,使用一些目標(biāo)聲音的特征,比如語(yǔ)音波形,也可以進(jìn)行更深入的分析和提取。

什么是合成聲音?

合成聲音是一個(gè)術(shù)語(yǔ),也就是通常所說(shuō)的Deepfake Voice,合成聲音也經(jīng)常與聲音克隆互換使用。

但簡(jiǎn)單來(lái)說(shuō),合成語(yǔ)音就是計(jì)算機(jī)生成的語(yǔ)音,也叫語(yǔ)音合成,一般是通過(guò)人工智能(AI)和深度學(xué)習(xí)來(lái)實(shí)現(xiàn)的。

合成聲音的方式主要有兩種:文本到語(yǔ)音轉(zhuǎn)換(TTS)和語(yǔ)音到語(yǔ)音(STS)。

文本到語(yǔ)音轉(zhuǎn)換(TTS)在上文中已經(jīng)介紹過(guò),目前,TTS軟件已被用于幫助視障人士閱讀數(shù)字文本,還被搭載在語(yǔ)音助手等其他應(yīng)用上。

而語(yǔ)音到語(yǔ)音(STS)不是使用文本,而是使用一段語(yǔ)音修改其聲音的特征來(lái)創(chuàng)建另一段聽(tīng)起來(lái)很真實(shí)的合成語(yǔ)音。

過(guò)去的語(yǔ)音合成并不能生成以假亂真的聲音。但是隨著技術(shù)的發(fā)展,這種情況已經(jīng)改變。

人工智能如何完成語(yǔ)音合成?

傳統(tǒng)的語(yǔ)音合成通常使用兩種基本技術(shù)。這兩種技術(shù)是拼接合成和共振峰合成。

拼接合成采用的方法是將錄制聲音的短樣本拼接在一起,形成一個(gè)稱為單元的鏈。這些單元然后被用來(lái)生成用戶定義的聲音模式。

而共振峰合成這種技術(shù)最常用來(lái)復(fù)制人們用元音發(fā)出的聲音。

這些方法的缺點(diǎn)是,它們時(shí)不時(shí)會(huì)生成一些人們無(wú)法發(fā)出的聲音。但是深度學(xué)習(xí)和人工智能的出現(xiàn)將TTS技術(shù)帶到了新的高度。

AI文本到語(yǔ)音轉(zhuǎn)換通常被稱為神經(jīng)文本到語(yǔ)音轉(zhuǎn)換,它利用神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)技術(shù)從文本中合成語(yǔ)音輸出。

首先,語(yǔ)音引擎接受音頻輸入,并識(shí)別人類(lèi)聲音產(chǎn)生的聲波。

接著,這些信息被翻譯成語(yǔ)言數(shù)據(jù),這被稱為自動(dòng)語(yǔ)音識(shí)別(ASR)。在獲得這些數(shù)據(jù)后,語(yǔ)音引擎必須對(duì)數(shù)據(jù)進(jìn)行分析,以理解它所收集的單詞的含義,這被稱為自然語(yǔ)言處理(NLP)。

尋找訓(xùn)練數(shù)據(jù)是合成聲音的第一個(gè)基本項(xiàng)目。沒(méi)有清晰的聲音錄音,就沒(méi)有辦法成功地訓(xùn)練人工智能模型來(lái)捕捉一個(gè)人說(shuō)話的所有復(fù)雜細(xì)節(jié)。

錄制過(guò)程可能需要幾個(gè)小時(shí)到幾個(gè)小時(shí),語(yǔ)音解決方案團(tuán)隊(duì)將提供一個(gè)全面的短語(yǔ)列表,以捕捉一個(gè)人聲音的所有特征。

通常,這個(gè)列表不會(huì)超過(guò)4000個(gè)短語(yǔ),但目標(biāo)確實(shí)是圍繞某人獨(dú)特的聲音捕獲盡可能多的數(shù)據(jù)——捕獲的數(shù)據(jù)越多,聲音克隆就越準(zhǔn)確。

接下里,AI要對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行建模。

使用神經(jīng)網(wǎng)絡(luò)獲取一組有序的音素,然后將它們轉(zhuǎn)換成一組頻譜圖。頻譜圖是信號(hào)頻帶頻譜的可視化呈現(xiàn)。

神經(jīng)網(wǎng)絡(luò)選擇合適的頻譜圖,其頻帶能夠更準(zhǔn)確地刻畫(huà)人腦在理解語(yǔ)音時(shí)使用的聲學(xué)特征。然后,神經(jīng)聲碼器將這些頻譜圖轉(zhuǎn)換成語(yǔ)音波形,就可以發(fā)出自然且逼真的聲音。

中文版Deepfake Voice嘗鮮嗎?

今年10月,GitHub上的一個(gè)項(xiàng)目狂攬13k星。

只需5秒,就能用AI技術(shù)來(lái)模擬聲音來(lái)生成任意語(yǔ)音內(nèi)容,并且還支持中文。

https://github.com/babysor/MockingBird/blob/main/README-CN.md

根據(jù)上傳的演示視頻來(lái)看,聲音模仿的也很逼真。

Mocking Bird的主要特性包括:

支持普通話并使用多種中文數(shù)據(jù)集進(jìn)行測(cè)試:aidatatang_200zh, magicdata, aishell3, biaobei,MozillaCommonVoice等

適用于pytorch,已在1.9.0版本中測(cè)試,GPU Tesla T4和GTX 2060

可在Windows操作系統(tǒng)和Linux操作系統(tǒng)中運(yùn)行(蘋(píng)果系統(tǒng)M1版也有社區(qū)成功運(yùn)行案例)

僅需下載或新訓(xùn)練合成器(synthesizer就有良好效果,復(fù)用預(yù)訓(xùn)練的編碼器/聲碼器,或?qū)崟r(shí)的HiFi-GAN作為vocoder)

提供一個(gè)Webserver可查看訓(xùn)練結(jié)果,供遠(yuǎn)程調(diào)用

Mocking Bird除了在知乎上有專(zhuān)欄分享保姆級(jí)教程和訓(xùn)練技巧之外,其使用也非常簡(jiǎn)單。

首先安裝好PyTorch、ffmpeg、webrtcvad-wheels和requirements.txt 中要求的剩余包。

第二步是準(zhǔn)備預(yù)訓(xùn)練模型,可以使用作者提供的或者是其他人訓(xùn)練好的模型。

重要的數(shù)據(jù)處理操作是進(jìn)行音頻和梅爾頻譜圖預(yù)處理:python pre.py <datasets_root> 可以傳入?yún)?shù) --dataset {dataset} 支持 aidatatang_200zh, magicdata, aishell3

第三步在瀏覽器直接啟動(dòng)一個(gè)Web程序來(lái)進(jìn)行調(diào)試。

或者啟動(dòng)一個(gè)更完善的工具箱軟件。

作者還貼心的附上了所有可以學(xué)習(xí)的論文及原始代碼倉(cāng)庫(kù)。

這個(gè)倉(cāng)庫(kù)的名字MockingBird 是仿聲?shū)B(niǎo)、反舌鳥(niǎo),以善于模仿其他鳥(niǎo)類(lèi)及昆蟲(chóng)、兩棲動(dòng)物的叫聲而聞名,也是一種經(jīng)常出現(xiàn)在西方文學(xué)或影視作品之中的鳥(niǎo)類(lèi),在生物學(xué)上是嘲鶇的俗稱。

著名的書(shū)的名字《殺死一只知更鳥(niǎo)》的英文就是To Kill a Mocking Bird,實(shí)際上屬于翻譯的錯(cuò)誤,知更鳥(niǎo)的英文是Robin。

當(dāng)人工智能被用于語(yǔ)音詐騙

Deepfake Voice帶來(lái)的語(yǔ)音欺詐是一個(gè)很大的問(wèn)題。

2019年,犯罪分子克隆了一家總部位于英國(guó)的能源公司CEO的聲音,騙走了24萬(wàn)美元,原因就是這個(gè)假CEO在口音和語(yǔ)氣上聽(tīng)起來(lái)都是十分真實(shí)的。這起事件是歐洲已知的第一起直接使用人工智能的網(wǎng)絡(luò)犯罪。

另一起事件發(fā)生在2020年。一位在阿拉伯聯(lián)合酋長(zhǎng)國(guó)工作的銀行經(jīng)理接了一個(gè)電話,他當(dāng)時(shí)以為他在和一家公司的董事說(shuō)話,結(jié)果掉進(jìn)了一個(gè)徹頭徹尾的語(yǔ)音騙局,錯(cuò)誤地批準(zhǔn)了3500萬(wàn)美元的轉(zhuǎn)賬。

隨著技術(shù)的發(fā)展,Deepfake Voice詐騙變得越來(lái)越復(fù)雜,許多人可能在社交媒體上就已經(jīng)遇到過(guò)一些Deepfake Voice偽造的聲音。

那么,如何防范Deepfake Voice欺詐呢?

有兩種方法。

第一種方法是創(chuàng)建一個(gè)檢測(cè)器,分析聲音以確定它是否是使用deepfake技術(shù)制作的。不幸的是,因?yàn)镈eepfake Voice技術(shù)會(huì)不斷發(fā)展,檢測(cè)器無(wú)法永遠(yuǎn)保持正確。

第二種方法則相對(duì)更加現(xiàn)實(shí),主要是實(shí)現(xiàn)一個(gè)聽(tīng)眾聽(tīng)不到、人們也無(wú)法編輯的音頻水印。音頻水印本質(zhì)上是聲音被創(chuàng)造、編輯和使用的記錄。這樣一來(lái),人們就更容易知道一段聲音是否是合成的。

參考資料:

https://www.axios.com/artificial-intelligence-voice-dubbing-synthetic-14bfb3c6-99db-4406-920d-91b37d00a99a.html

https://www.businesswire.com/news/home/20210514005132/en/Veritone-Launches-MARVEL.ai-a-Complete-End-to-End-Voice-as-a-Service-Solution-to-Create-and-Monetize-Hyper-Realistic-Synthetic-Voice-Content-at-Commercial-Scale

https://www.veritone.com/blog/combining-conversational-ai-and-synthetic-media/

https://www.veritone.com/blog/everything-you-need-to-know-about-deepfake-voice/

https://www.veritone.com/blog/how-ai-companies-are-tackling-deepfake-voice-fraud/

https://www.veritone.com/blog/how-to-create-a-synthetic-voice/

特別鳴謝ifan

https://www.ifanr.com/1454818

本文來(lái)自微信公眾號(hào)“新智元”(ID:AI_era),編輯:好困 小咸魚(yú),36氪經(jīng)授權(quán)發(fā)布。