您的位置：首頁 > 智能 >

人人影視落幕，魷魚游戲殺瘋：要什么字幕，AI配音5秒生成

來源：36氪 ? 2021-12-06 13:29:00

【導(dǎo)讀】今年，《魷魚游戲》大火。隨著Netflix等流媒體的興起，非英語作品也越來越多。然而，字幕和配音行業(yè)的人才卻非常緊缺，尤其是小語種直譯方面。為此，不管是Netflix，還是小型的本地化供應(yīng)商，都在探索能不能用AI配音技術(shù)代替人工字幕。

一個時代，終究還是落幕了。

11月22日，上海第三中院對「人人影視字幕組」侵權(quán)案進(jìn)行公開審理，并當(dāng)庭作出一審判決。

以侵犯著作權(quán)罪判處被告人梁永平有期徒刑三年六個月，并處罰金人民幣一百五十萬元。

違法所得予以追繳，扣押在案的供犯罪所用的本人財物等予以沒收。

前段時間，韓國反烏托邦題材劇集《魷魚游戲》（Squid Game）可謂是相當(dāng)火爆，上線1個月播放量就達(dá)到了1.42億，霸榜90個國家和地區(qū)。

Netflix也為其提供了多達(dá)31種語言的字幕和13種語言的配音。

然而韓裔美籍喜劇演員Youngmi Mayer卻發(fā)現(xiàn)《魷魚游戲》的官方字幕過于離譜，完全就是詞不達(dá)意。

就比如說，當(dāng)女演員用韓語表示「看什么看」，Netflix 的英文字幕翻譯為「走開」。

隨著Netflix等流媒體的興起，像是《魷魚游戲》這類的非英語作品也越來越多。

然而，字幕和配音行業(yè)的人才卻非常緊缺，尤其是小語種直譯方面。

還是以《魷魚游戲》為例，如果想將其推向西班牙語市場，通常會先輸出英文版的字幕，然而再在這個基礎(chǔ)上進(jìn)行法語翻譯。

也就是說，部分語種字幕的質(zhì)量完全取決于英文的翻譯如何，而這個轉(zhuǎn)化過程難免會丟失很多信息細(xì)節(jié)。

據(jù)統(tǒng)計，《魷魚游戲》的配音版比字幕版的觀看人數(shù)還要多。

為此，不管是Netflix這樣的流媒體巨頭，還是一些小型的本地化服務(wù)供應(yīng)商，都在探索能不能用AI技術(shù)代替人工翻譯。

那么，AI到底是能行，還是不能行？

這就得從Deepfake Voice是什么開始說起了。

Deepfake Voice

復(fù)制或克隆一個人的聲音，常用到的一項技術(shù)叫Deepfake Voice，也稱為語音克隆或合成語音，其目的是使用AI生成一個人的語音。

目前，這項技術(shù)已經(jīng)發(fā)展到可以在音調(diào)和相似度上非常精確地復(fù)制人聲的地步。

什么是聲音克隆？

聲音克隆是一個過程，在這個過程中，人們使用計算機(jī)生成真實個體的語音，使用人工智能（AI）創(chuàng)建一個特定的、獨特的聲音的克隆。

要克隆某人的聲音，必須有訓(xùn)練數(shù)據(jù)輸給人工智能模型。這些數(shù)據(jù)通常記錄了目標(biāo)人說話的例子。

人工智能可以使用這些數(shù)據(jù)來呈現(xiàn)一個真實的聲音，比如可以用文字鍵入的任何東西生成一段語音，這個過程稱為文本到語音。

在以往的文本到語音（TTS）系統(tǒng)中，訓(xùn)練數(shù)據(jù)是關(guān)鍵組成部分，它控制了語音輸出的產(chǎn)生。換句話說，你聽到的聲音就應(yīng)該是數(shù)據(jù)集中給出的聲音。

不過現(xiàn)在，隨著最新AI技術(shù)的引入，使用一些目標(biāo)聲音的特征，比如語音波形，也可以進(jìn)行更深入的分析和提取。

什么是合成聲音？

合成聲音是一個術(shù)語，也就是通常所說的Deepfake Voice，合成聲音也經(jīng)常與聲音克隆互換使用。

但簡單來說，合成語音就是計算機(jī)生成的語音，也叫語音合成，一般是通過人工智能（AI）和深度學(xué)習(xí)來實現(xiàn)的。

合成聲音的方式主要有兩種：文本到語音轉(zhuǎn)換（TTS）和語音到語音（STS）。

文本到語音轉(zhuǎn)換（TTS）在上文中已經(jīng)介紹過，目前，TTS軟件已被用于幫助視障人士閱讀數(shù)字文本，還被搭載在語音助手等其他應(yīng)用上。

而語音到語音（STS）不是使用文本，而是使用一段語音修改其聲音的特征來創(chuàng)建另一段聽起來很真實的合成語音。

過去的語音合成并不能生成以假亂真的聲音。但是隨著技術(shù)的發(fā)展，這種情況已經(jīng)改變。

人工智能如何完成語音合成？

傳統(tǒng)的語音合成通常使用兩種基本技術(shù)。這兩種技術(shù)是拼接合成和共振峰合成。

拼接合成采用的方法是將錄制聲音的短樣本拼接在一起，形成一個稱為單元的鏈。這些單元然后被用來生成用戶定義的聲音模式。

而共振峰合成這種技術(shù)最常用來復(fù)制人們用元音發(fā)出的聲音。

這些方法的缺點是，它們時不時會生成一些人們無法發(fā)出的聲音。但是深度學(xué)習(xí)和人工智能的出現(xiàn)將TTS技術(shù)帶到了新的高度。

AI文本到語音轉(zhuǎn)換通常被稱為神經(jīng)文本到語音轉(zhuǎn)換，它利用神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)技術(shù)從文本中合成語音輸出。

首先，語音引擎接受音頻輸入，并識別人類聲音產(chǎn)生的聲波。

接著，這些信息被翻譯成語言數(shù)據(jù)，這被稱為自動語音識別（ASR）。在獲得這些數(shù)據(jù)后，語音引擎必須對數(shù)據(jù)進(jìn)行分析，以理解它所收集的單詞的含義，這被稱為自然語言處理（NLP）。

尋找訓(xùn)練數(shù)據(jù)是合成聲音的第一個基本項目。沒有清晰的聲音錄音，就沒有辦法成功地訓(xùn)練人工智能模型來捕捉一個人說話的所有復(fù)雜細(xì)節(jié)。

錄制過程可能需要幾個小時到幾個小時，語音解決方案團(tuán)隊將提供一個全面的短語列表，以捕捉一個人聲音的所有特征。

通常，這個列表不會超過4000個短語，但目標(biāo)確實是圍繞某人獨特的聲音捕獲盡可能多的數(shù)據(jù)——捕獲的數(shù)據(jù)越多，聲音克隆就越準(zhǔn)確。

接下里，AI要對語音數(shù)據(jù)進(jìn)行建模。

使用神經(jīng)網(wǎng)絡(luò)獲取一組有序的音素，然后將它們轉(zhuǎn)換成一組頻譜圖。頻譜圖是信號頻帶頻譜的可視化呈現(xiàn)。

神經(jīng)網(wǎng)絡(luò)選擇合適的頻譜圖，其頻帶能夠更準(zhǔn)確地刻畫人腦在理解語音時使用的聲學(xué)特征。然后，神經(jīng)聲碼器將這些頻譜圖轉(zhuǎn)換成語音波形，就可以發(fā)出自然且逼真的聲音。

中文版Deepfake Voice嘗鮮嗎？

今年10月，GitHub上的一個項目狂攬13k星。

只需5秒，就能用AI技術(shù)來模擬聲音來生成任意語音內(nèi)容，并且還支持中文。

https://github.com/babysor/MockingBird/blob/main/README-CN.md

根據(jù)上傳的演示視頻來看，聲音模仿的也很逼真。

Mocking Bird的主要特性包括：

支持普通話并使用多種中文數(shù)據(jù)集進(jìn)行測試：aidatatang_200zh, magicdata, aishell3， biaobei，MozillaCommonVoice等

適用于pytorch，已在1.9.0版本中測試，GPU Tesla T4和GTX 2060

可在Windows操作系統(tǒng)和Linux操作系統(tǒng)中運行（蘋果系統(tǒng)M1版也有社區(qū)成功運行案例）

僅需下載或新訓(xùn)練合成器（synthesizer就有良好效果，復(fù)用預(yù)訓(xùn)練的編碼器/聲碼器，或?qū)崟r的HiFi-GAN作為vocoder）

提供一個Webserver可查看訓(xùn)練結(jié)果，供遠(yuǎn)程調(diào)用

Mocking Bird除了在知乎上有專欄分享保姆級教程和訓(xùn)練技巧之外，其使用也非常簡單。

首先安裝好PyTorch、ffmpeg、webrtcvad-wheels和requirements.txt 中要求的剩余包。

第二步是準(zhǔn)備預(yù)訓(xùn)練模型，可以使用作者提供的或者是其他人訓(xùn)練好的模型。

重要的數(shù)據(jù)處理操作是進(jìn)行音頻和梅爾頻譜圖預(yù)處理：python pre.py <datasets_root> 可以傳入?yún)?shù) --dataset {dataset} 支持 aidatatang_200zh, magicdata, aishell3

第三步在瀏覽器直接啟動一個Web程序來進(jìn)行調(diào)試。

或者啟動一個更完善的工具箱軟件。

作者還貼心的附上了所有可以學(xué)習(xí)的論文及原始代碼倉庫。

這個倉庫的名字MockingBird 是仿聲鳥、反舌鳥，以善于模仿其他鳥類及昆蟲、兩棲動物的叫聲而聞名，也是一種經(jīng)常出現(xiàn)在西方文學(xué)或影視作品之中的鳥類，在生物學(xué)上是嘲鶇的俗稱。

著名的書的名字《殺死一只知更鳥》的英文就是To Kill a Mocking Bird，實際上屬于翻譯的錯誤，知更鳥的英文是Robin。

當(dāng)人工智能被用于語音詐騙

Deepfake Voice帶來的語音欺詐是一個很大的問題。

2019年，犯罪分子克隆了一家總部位于英國的能源公司CEO的聲音，騙走了24萬美元，原因就是這個假CEO在口音和語氣上聽起來都是十分真實的。這起事件是歐洲已知的第一起直接使用人工智能的網(wǎng)絡(luò)犯罪。

另一起事件發(fā)生在2020年。一位在阿拉伯聯(lián)合酋長國工作的銀行經(jīng)理接了一個電話，他當(dāng)時以為他在和一家公司的董事說話，結(jié)果掉進(jìn)了一個徹頭徹尾的語音騙局，錯誤地批準(zhǔn)了3500萬美元的轉(zhuǎn)賬。

隨著技術(shù)的發(fā)展，Deepfake Voice詐騙變得越來越復(fù)雜，許多人可能在社交媒體上就已經(jīng)遇到過一些Deepfake Voice偽造的聲音。

那么，如何防范Deepfake Voice欺詐呢？

有兩種方法。

第一種方法是創(chuàng)建一個檢測器，分析聲音以確定它是否是使用deepfake技術(shù)制作的。不幸的是，因為Deepfake Voice技術(shù)會不斷發(fā)展，檢測器無法永遠(yuǎn)保持正確。

第二種方法則相對更加現(xiàn)實，主要是實現(xiàn)一個聽眾聽不到、人們也無法編輯的音頻水印。音頻水印本質(zhì)上是聲音被創(chuàng)造、編輯和使用的記錄。這樣一來，人們就更容易知道一段聲音是否是合成的。

參考資料：

https://www.axios.com/artificial-intelligence-voice-dubbing-synthetic-14bfb3c6-99db-4406-920d-91b37d00a99a.html

https://www.businesswire.com/news/home/20210514005132/en/Veritone-Launches-MARVEL.ai-a-Complete-End-to-End-Voice-as-a-Service-Solution-to-Create-and-Monetize-Hyper-Realistic-Synthetic-Voice-Content-at-Commercial-Scale

https://www.veritone.com/blog/combining-conversational-ai-and-synthetic-media/

https://www.veritone.com/blog/everything-you-need-to-know-about-deepfake-voice/

https://www.veritone.com/blog/how-ai-companies-are-tackling-deepfake-voice-fraud/

https://www.veritone.com/blog/how-to-create-a-synthetic-voice/

特別鳴謝ifan

https://www.ifanr.com/1454818

本文來自微信公眾號“新智元”（ID:AI_era），編輯：好困小咸魚，36氪經(jīng)授權(quán)發(fā)布。

色翁荡息又大又硬又粗又视频软件,人人妻人人爽.,人人妻人人狠人人爽天天综合网,欧美精品亚洲精品日韩已满十八 ,欧美激情猛片xxxⅹ大3

人人影視落幕，魷魚游戲殺瘋： 要什么字幕，AI配音5秒生成

Deepfake Voice

中文版Deepfake Voice嘗鮮嗎？

當(dāng)人工智能被用于語音詐騙

相關(guān)推薦

人人影視落幕，魷魚游戲殺瘋：要什么字幕，AI配音5秒生成

中文版Deepfake Voice嘗鮮嗎？