在元宇宙聽不懂外語怎麼辦?Meta:新技術可翻譯128種語言
周宇 / 何渝婷編譯
2021-11-25 08:00

作為元宇宙最堅定的支持者之一,Facebook在上個月宣布改名Meta,此後便新動作不斷,先是推出了一個觸覺手套,試圖讓人們在VR世界中也能體驗到觸覺變化。

觸覺之後,Meta又盯上了語言,它要讓人們在虛擬世界中也可以無障礙溝通,哪怕雙方使用的語言不同,你說英語,我說中文都能互相理解。

就這樣XLS-R來了,它是Meta最近發表的一個AI語言處理模型,最高能辨識128種語言,目前已經公布了網頁體驗版。

體驗版的功能有一定缺失,僅支持將22種語言翻譯為16種語言,我試了下最常見的英譯中,一段7秒左右英文語音,XLS-R還是能相對準確地辨識,中文翻譯和英文辨識都基本正確,兩者耗時都在1.4秒 左右,並不算短。

對比市面上常見語音翻譯應用,這個速度和轉譯表現其實中規中矩,都對口語清晰度有要求,一旦語速稍微快一些,就比較難理解,轉譯會出錯。

XLS-R的潛力體現在多語言通用AI模型上,據Meta該技術基於wac2vec 2.0預訓練模型,能將語音拆成拆成25毫秒的基本單元來分析,利用上下文轉換語音內容,提升辨識準確度。

之後Meta又對wac2vec 2.0技術進行了多次調整,嘗試處理多種語言,轉換準確率提升了不少,經過通過436000小時的公開錄音訓練後,才有如今的XLS-R。

XLS-R僅僅用一種語言模型就可以轉換128種語言,和特殊領域使用特殊模型的常見做法不同,極大地提升了通用性。在官方部落格中,Meta表示它們的目標是用單一模型辨識全球7000多種語言,從而改進轉換算法。

這是一個新的開始,離真正成為Meta所設想的虛擬世界基礎組成部分還比較難,這不僅僅和技術有關,設備算力也是限制。

作為同在在自然語言辨識領域擁有大量技術儲備的Google,其實比Meta更早在消費級設備上支持多語種翻譯功能,Pixel 6系列支持live Translate功能,可以在聊天軟體中進行翻譯,無障礙地與外語朋友交流。

只是live Translate功能支持的語言並不算多,主要還是英語、德語、日語之間的翻譯,哪怕Pixel 6所使用的Tensor晶片在AI性能方面已經是冠絕全球,達到了驍龍888+的三倍。

只有聯網live Translate功能才能做到支持48種語言,而使用雲端運算技術的Google翻譯也僅支持108種語言,離7000種語言很遠。

元宇宙離我們仍然有一段距離,不過XLS-R等技術作為Meta口中虛擬世界的基礎建設之一,或許能在其他領域發揮作用,現在它已經發表了XLS-R預訓練模型的微調教程,讓業內人士可以基於它進行微調以便應用到具體的工作當中。

或許不久之後,我們能看到越來越多的應用程式,支持更多語種的語音轉譯功能。

本文為愛范兒授權刊登,原文標題為「在元宇宙聽不懂外語怎麼辦?Meta:新技術可翻譯 128 種語言