(示意圖/取自pixabay)
根據海外媒體報導,上週一款名為 LipDub 的翻譯軟體正式發表,這款AI程式可以讓影音創作者在幾分鐘內使用不同語言進行交流。
LipDub由新創公司Captions開發,這家公司成立於2021年,由Gaurav Misra和 Dwight Churchill聯合成立。
Captions目前已經獲得了紅杉資本、安德里森·霍羅維茲、Instagram聯合創辦人Kevin Systrom和Mike Krieger,以及Facebook前產品設計副總裁Julie Zhuo的投資。
創辦人Gaurav Misra來自印度新德里,曾是Snap的設計工程主管,Misra表示,他的成長環境中充滿了印地語、英語、旁遮普語和烏爾都語等各種不同的語言。
而Gaurav Misra還花了數年時間學習法語,這幫助他在歐洲、非洲和中東建立了專業的關係網。
Misra相信,AI驅動的翻譯和口型匹配技術可以幫助人們更輕鬆地連結和理解他人。
Captions:利用 AI 輕鬆實現影片翻譯本地化
Captions以製作AI生成的字幕、語音糾正,以及在後期製作中糾正影音創作者眼球位置的技術而聞名。
Misra 和 Churchill 曾在高盛集團擔任產品開發人員,他們早就想在配音翻譯中加入口型匹配功能,但沒想到會這麼快實現。
Misra說:「我們最初認為這項技術需要10年時間才能夠實現,但現在的技術發展實在太快了,幾乎每月甚至每週都有新東西出現。」
LipDub正在進入一個很有前景的AI翻譯市場,它的競爭對手包括語音複製翻譯應用程式 HeyGen 和Verbalate,以及Spotify和視覺特效工作室Monsters Aliens Robots Zombies等公司推出的新工具。
過去,許多企業需要聘請多個影片主持人用不同的語言表達同一個故事,而現在,他們可以通過生成式AI來實現同樣的功能。
這些應用程式允許用戶上傳影片,然後在幾分鐘內將其轉換成流利的土耳其語、法語、阿拉伯語或義大利語。
DeepMedia公司的創辦人Rijul Gupta表示:「我們基本上已經完美地實現了這項新技術,任何人都可以複製任何人的聲音,並通過5秒鐘的音訊參考,讓它用不同的語言說話。」
在 X 和 Reddit 等網站上,一些知名人士的配音影片已經出現了數千次,Spotify 上個月也加入了這一行列,他們宣布將提供人工智慧翻譯的Podcast,讓這些Podcast保持原本音色和語調的同時轉換為不同的語言。
目前,演員Dax Shepard和Kristen Bell、麻省理工學院研究員Lex Fridman和Steven Bartlett等人,都有了西班牙語Podcast,而法語和德語翻譯也將很快推出。
新的 Spotify 工具利用了OpenAI最新發表的語音生成技術,可提供更真實的聽覺體驗。
去年年初,Misra和 Captions 的團隊開始嘗試口型匹配技術,並與合作夥伴測試該技術在Captions應用程式中的效果。
Misra坦言,口型匹配技術發展速度比他預期的要快。「這看起來就像是自然地進入下一階段,創造出一種不像是配音或者人工調整的視頻。新的技術讓影片看起來非常自然且易於理解。」
從測試開始,一種新的可能性便已展示在他們面前,Misra表示:「就像我們以前在《星艦奇航記》中看到的那些科技一樣,這簡直就是科幻!」
Captions今年6月獲得了來自Kleiner Perkins 領投的 2500 萬美元的B輪融資,目前Captions 的日活躍用戶已達10萬,Misra認為LipDub推出後該公司將會擁有更多的活躍用戶。
目前LipDub 支持28種語言,包括韓語、西班牙語、捷克語、泰米爾語和烏克蘭語,它採用零鏡頭模式,可以在Captions的影片生成模型在沒見過主題的情況下,推出流暢的影片。
LipDubs的內部機器學習算法經過訓練,可以辨識講話人的唇部動作,公司還使用 OpenAI 的GPT-4模型,在應用程式中將影片翻譯成不同的語言和方言。
這種 AI 配音技術已在Captions應用程式中使用,並於今年3月發表,吸引了來自世界各地的用戶。
Misra說:「原本無法接觸到特定受眾的人現在可以做到了,這項技術是烏托邦式未來的完美範例,所以我對此感到非常興奮。」
Misra認為,新技術的可能性是無窮無盡的。「我認為直播是一個非常可靠的案例。」Misra表示:「無論是 Twitch 上的遊戲直播,還是不知名的演講,這些類型的內容都可以通過 AI 輕易地本地化。」
HeyGen:想讓不同語言的影片傳播像打字一樣簡單
除了Captions,還有很多同類型AI翻譯的公司,比如HeyGen,HeyGen 是一家擁有數百萬用戶的AI公司,是短影音內容AI口型匹配成和翻譯領域最大的參與者之一。
該公司在 9 月 7 日上線影片翻譯功能後,在X上迅速走紅。
自此以後,數十個逼真的影片在網路上瘋傳,用戶分享了馬斯克、梅西和祖克柏用多種外語講話的片段。
Mark Burginger是玩具公司Qubits的負責人,他曾在一個名為「鯊魚坦克」節目中推銷他以STEM為中心的公司,出於好奇,他於 9 月13日試用了HeyGen的人工智慧翻譯功能。
他在X上發表了一段自己用西班牙語說話的影片,儘管他並不懂西班牙語。
「你能想像一家一年收入不到一百萬美元的小型玩具公司,能夠使用這些價格相當低廉的工具嗎?」Burginger說,他是一名藝術家和發明家,工作地點在北卡羅萊納州亨德森維爾,Burginger表示,「這有助於與大公司公平競爭。」
HeyGen 的目標是「消除語言障礙」,公司聯合創辦人兼執行長Joshua Xu說:「我們設想在未來,用不同語言製作影片內容和傳播資訊,就像打字一樣簡單。」
在 X 上發表的一段人工智慧生成的影片中,Xu補充說,Coursera、Khan Academy、和MasterClass等教育平台,可以通過「多語言化」來擴大影響力。
HeyGen 目前支援10種輸入語言和8種輸出語言,包括英語、西班牙語、中文、義大利語、印地語和日語等。
在創辦原名為 Movio的 HeyGen之前,來自 Snap 的XU 和前字節跳動工程師Wayne Liang於2020年創辦了Surreal。
當時,Surreal提供逼真的「深度偽造」產品,「深度偽造」是一種影片合成技術,可以創作出以假亂真的合成影片。這種技術吸引了希望以更有效方式宣傳產品的電子商務公司。
Surreal在中國深圳啓動運營四個月後,在一輪天使投資中獲得了100萬美元的投資,時至今日,Surreal仍活躍在中國,在中國的就業和大學網站上發布招聘和實習資訊,但Surreal的HeyGen平台主要在洛杉磯營運,XU和Liang在洛杉磯工作。
Movio 是一個基於Surreal引擎的AI影音平台,於2022年7月推出,據該公司稱,其產品僅在7個月內就獲得了100萬美元的收入,之後 XU 和 Liang 將 Movio 更名為HeyGen,自2020年以來,HeyGen和Surreal已從紅杉資本、IDG資本、真格基金和百度的風險投資部門百度風投(Baidu Ventures),獲得了至少900萬美元的融資。
被Podcast啓發誕生的Verbalate
除了 LipDub和HeyGen之外,還有一個平台也在涉足該領域,Verbalate也能將用戶的影片同步配音成目標語言。
不同的是,Verbalate可以為長達30分鐘的影片配音。
據該平台創辦人Grant Davies表示,Verbalate純粹是因為疫情流行期間的無聊而誕生的。
在2022年的一天,Davies在騎車時聽到Joe Rogan和MrBeast的Podcast訪談,當時這位YouTuber提到,他的頻道正在使用配音演員將影片配音成西班牙語、俄語、印地語、葡萄牙語等語言,因為全世界只有不到10%的人說英語。
Davies當時正在研究AI技術,他們沒撒航就覺得他們的團隊肯定能夠實現這個功能。
Davies利用自己的行銷網路向希望與海外員工溝通的企業客戶,介紹並銷售Verbalate的服務,據雪梨一家外包公司OutSourced Staff的創始人Dom Procter表示:「對我這個銷售和行銷人員來說,它讓我的生活變得更輕鬆。」
他曾使用 Verbalate 影片向亞洲或東歐的遠端員工發送訊息,Dom Procter指出:「用他們的母語製作內容,這改變了遊戲規則。」Verbalate最基本的訂閱計劃每月9美元,允許用戶創建一個10分鐘長的影片,每分鐘的額外費用為1美元;而HeyGen的創作者包月套餐每月29美元,可以製作多個影片,每個影片為5分鐘。
其他平台則著眼於更大的市場和更長的影片播放時間,總部位於多倫多的 MARZ 公司主要通過其LipDub AI平台(並非 Captions 的LipDub),吸引對逼真配音感興趣的電影和電視製作公司。
LipDub AI 目前處理一分鐘包含多個鏡頭的影片片段的運行時間不到20分鐘,雖然該公司目前使用訓練片段來製作這些配音,但它希望在年內通過放棄訓練片段,而只依靠音訊和原始片段來加快處理速度。
與其他配音平台不同,LipDub AI不使用大型語言模型,而是使用自己的生成模型,該模型在錄音基礎上進行訓練。
MARZ 市場總監Tim Reyes認為,口型合成技術將幫助製片人擴大電影或電視節目的影響力,同時又不會危及演員的工作保障。
Reyes認為:「LipDub AI 實際上為新市場開闢了一大堆機會,這不像其他一些人工智慧技術,他們破壞了電影業目前的工作流程。」
除了開拓新市場,這些應用程式的創造者們還有更崇高的理想。
Davies希望,像 Verbalate 這樣的翻譯程式能夠打破人們對自己語言的隱性偏見,甚至培養一種更加全球化的思維方式。
Davies說,在他的團隊在 X 上分享的一個影片中,可以看到來自不同地區的人們用不同語言發表自己的觀點,這幫助他思考人們是如何能夠跨越國界進行溝通,認為這有可能讓人們變得更人性化一些,因為不同文化背景的人們可以更好地理解彼此。
Davies表示,即使是政治訊息,用你自己的語言也會產生不同的效果,如果我們能夠相互傾聽,就有可能幫助人類。
本文為巴比特授權刊登,原文標題為「除了深度換臉、模擬配音,還能口型匹配的AI軟件出現了」