AI發展驚人!竟能自學翻譯任何語言
合作媒體:雷鋒網/作者:嫣然
林詩容/編譯 2017-12-07 10:20

結合人工智慧神經網路的機器翻譯,近年來取得了巨大的進步,以Google翻譯為代表,足以讓印象還停留在「生硬死板、破綻百出」的人驚訝萬分;但總體來說,也還是通過人類的已存翻譯文件來學習。

 

據《fastcompany》報導,最新出現的兩個機器翻譯系統完成了嶄新的突破,可以在無需人類翻譯文件的學習資料的情況下,自主學習翻譯地球上的任何語言。

 

機器翻譯發展驚人,但是地球上還是有數以億計的人無法享受它的好處,因為他們的語言在翻譯器的下拉清單中根本找不到;現在,兩個新的人工智慧系統一個來自西班牙的delPaísVasco大學(UPV),另一個來自卡內基梅隆大學(CMU)承諾會改變這一切,像《星際迷航》(Star Trek)中那樣的真正的宇宙通用譯者(universal translator)到來而打開大門。

 

瞭解這些新系統的潛力,首先要瞭解當前的機器翻譯是如何工作的,目前機器翻譯的事實標竿是Google翻譯,這個系統涵蓋了從南非語到祖魯語的103種語言,包括世界上前10種語言,順序為漢語、西班牙語、英語、印度語、孟加拉語、葡萄牙語、俄語、日語、德語、和爪哇語。Google的系統使用人類監督的神經網路,比較平行文件,以前由人類翻譯過的書籍和文章,通過比較這些平行文件中的大量數據,Google翻譯可以學習任意兩種指定語言之間的對等關係,從而獲得在它們之間快速轉換的能力。有時候翻譯結果會很有趣,可能並不能真正反映原文的意思,但總結來說,這些翻譯是功能性的,隨著時間的推移,他們會越來越好。

 

Google的做法很好,而且很有效;但不幸的是,它並不是全球通用,這是因為監督的培訓需要很長的時間,以及很多監督人員,因為太多了,Google使用了眾包,也因為非世界所有語言之間都足夠多的並行翻譯文本。想想看,根據世界語言民族學目錄,地球上有6,909種生活語言;其中414種的使用人數占人類總數的94%,由於Google翻譯涵蓋了103個,因此會留下6,806種語言沒有機器翻譯,其中有311種語言的使用人數超過百萬。總結來說,至少有八億人不能享受機器自動翻譯的好處。

 

這兩個新的系統可以在任何語言之間翻譯單詞和句子,無需通過比較大量由人類翻譯的平行文本來學習,他們也不需要監督;相反,他們使用未監督的機器學習,並比較不同語言的隨機文本,這是如何運作的?由於語言的詞語分類是相似,所以系統猜測這些詞是否相等,用這些訊息構建翻譯詞典。他們從中找出句子結構,通過在不同的語言之間來回翻譯來評估他們猜測的結果。 

 

正如UPV的研究員Mikel Artetxe所描述的那樣:「想像一下,你給了一個人很多的中文書籍和阿拉伯語書籍,這些書都不重疊,然後這個人必須學會把中文翻譯成阿拉伯語。這似乎是不可能的,對吧?」事實上,這看起來實在太不可能了,以至於微軟人工智能專家Di He(這兩個研究項目的啟發者)告訴科學界,他得知,「即使沒有人工監控,電腦也可以學習翻譯」的時候,整個人都震驚了。

 

一個警告就是,這個系統並不像目前的平行文本深度學習系統那麼精確,但是正如Di He指出的那樣,電腦能夠在沒有任何人類指導的情況下猜測所有這些事實,這一事實本身簡直不可思議。我們只是接觸到了這種新的學習方法的表面,看起來,可能很快就有一個真正的通用翻譯,讓我們能夠與任何人用對方的母語交談了,不再僅僅是科幻的東西。

 

 圖文授權自 雷鋒網