Google開放領域聊天機器人Meena,是史上最強嗎?
Rachel / 何渝婷編譯
2020-02-04 10:25

(示意圖/取自pixabay)

科技巨頭們時不時就宣布,在AI領域取得了突破性進展,對此我們已經見慣不驚了。

當地時間2020 年1月28日,Google在一篇部落格中,介紹了一款開放領域聊天機器人Meena,號稱「史上最強」,那麼這一新突破會讓人眼前一亮嗎?

【圖片來源:Google Blog】

開放領域聊天機器人開發難度大

實際上,設計智慧聊天機器人是為了應對資訊爆炸時代存在的資訊過載問題。最初,人們把聊天機器人當作搜索引擎的終極形態進行設計和開發。不同於現有的搜索引擎,聊天機器人可針對用戶的問題自然又通順地給出精準的答案,節約了很多時間,從而帶來更好的用戶體驗。

根據使用場景劃分,聊天機器人(chatbot)主要有開放域型(Open-Domain)和任務導向型(Task-Oriented)兩種。

其中,任務導向型主要有問答系統、對話系統聊天機器人,分別指基於用戶的問題給出一個回答(常用於智慧搜索、智慧家居中的家電控制等場景)和與用戶進行多輪對話的聊天機器人(如客服機器人、銷售機器人等)。

而開放領域聊天機器人(也稱閒聊式機器人),顧名思義針對開放域的對話場景,主題、內容不限,比如微軟小冰和蘋果Siri。Google在上述部落格文章中表示:「開放領域聊天機器人的研究,不僅具有學術價值,還可激發很多有趣的應用,如更深層次的人機交互、提升外語訓練效果,以及製作交互式電影和遊戲角色。」

值得一提的是,開放領域聊天機器人更符合人們心中對「人工智慧」的定位,開發難度自然也很大。當前開放領域聊天機器人,面臨的一個嚴峻問題在於,它們表達的內容往往沒有意義,無法與用戶的問題連貫起來,而且由於缺乏基本的常識和認知,不能給出針對性的回覆。

而Google開發的Meena正是一款開放領域聊天機器人,那麼相比現有的聊天機器人,究竟有何突破?

(Meena和人類的對話內容;圖片來源:Google Blog)

26億參數的端到端神經對話模型

Google在部落格文章中介紹稱,Meena是個26億參數的端到端訓練的神經會話模型,是GPT-2模型最大版本(15億參數)的1.7倍。據稱,Google利用400億字的數據集,通過2048個張量處理單元(即Tensor Processing Unit,Google專用AI晶片)訓練了30天,得到了最佳版本。實驗表明,比起聊天機器人SOTA,Meena能更好地完成對話,內容也更具體、清楚。

據悉,Meena由1個Evolved Transformer編碼器,和13個Evolved Transformer解碼器組成:編碼器用於處理對話語境,有助於Meena理解對方的話;而解碼器則會利用資訊生成回覆。而在這一過程中,Google 表示:「研究人員發現,超參數調整後,實現高品質對話的關鍵在於性能更強的解碼器。」

(圖片來源:Google Blog)

雷鋒網瞭解到,Google從公共領域社群媒體對話上,過濾得到了341GB的文本,並以樹狀脈絡形式組織文本進行「多輪對話」訓練。研究者將每輪對話作為訓練樣本,同時每輪之前的7輪對話為語境資訊,共同構成一組數據。據悉,選擇7輪對話作為語境,既能保證訓練過程獲得足夠長的語境資訊,同時模型也能不超過內存限制。畢竟文本越長,佔用的內存也越多。

新提出的人類評價指標SSA

根據部落格,上述這些表現是由Google根據新提出的人類評價指標「Sensibleness and Specificity Average (SSA)」得出的,而此次提出新的指標是因為,目前聊天機器人的人類評價指標頗為複雜,而且也很難形成一致的評價指標。Google表示,SSA能捕獲基本的、但對人類對話來說很重要的屬性。

為計算這一指標,研究者測試了Meena、Mitsuku、Cleverbot、DialoGPT及小冰等常見的聊天機器人。在測試中,對於每一款聊天機器人,研究者都在100個對話中收集了1600到2400輪,各聊天機器人的回覆都由人類評價者評分(主要依據對話的流暢性和回答的準確性),其各自性能表現如下圖。

(圖片來源:Google Blog)

不難看出,Meena相比於現有的SOTA聊天機器人,有著更高的SSA分數,甚至接近於人類的表現。

困惑度與SSA強相關

毫無疑問,人類評價或多或少存在一些問題,因此很多研究者都希望找到一個能夠自動計算的評價指標,而且這個指標要能和人類評價準確對應。

雷鋒網瞭解到,困惑度(perplexity,指一種任何神經會話模型都能輕易獲得的計算指標)是seq2seq模型(一種循環神經網路的變種,包括編碼器和解碼器兩部分,是自然語言處理中的一種重要模型,可用於機器翻譯、對話系統、自動文摘)中的一個常見指標,用於評價語言模型的不確定性。

而值得一提的是,Google證明了困惑度與SSA高度相關。

實際上,訓練Meena正是為了最大程度地減少困惑度,以及預測下一個標記(指對話中的下一個單詞)的不確定性。據部落格稱,這是因為Meena的核心為Evolved Transformer seq2seq架構,即一種通過進化神經架構搜索發現的Transformer體系結構,能夠改善困惑度。

在文章中,Google 表示,研究者依據層數、注意力數量、訓練步數、編碼器、訓練方式等因素,共測試了8種不同的模型,發現困惑度越低,SSA分數越高,同時兩者的相關係數很高(R^2 = 0.93)。

(圖片來源:Google Blog)

同時Google表示:「研究者將繼續透過改進算法、架構、數據和計算量等,降低這一神經會話模型的困惑度。」

Meena意義大嗎?

根據部落格中展示的數據,我們相信Meena優秀的準確性,不過Meena究竟什麼時候能推出、真正推出後表現如何,可能都要打問號。文章中提到,目前研究團隊正在針對這一研究的風險及益處,做進一步的評估,並可能在未來幾個月內推出Meena,旨在推動該領域的發展。

對此,VentureBeat記者Ronald Ashri在其報導中表示:「首先我們要意識到,即便Google開源所有程式碼,也很少有人能培訓類似Meena的模型。Meena應該還在實驗室裡,操作起來也非常複雜,還不能將其整合到一個工具中,而且Google也不可能很快就將其作為一項服務向用戶提供。因此,恐怕短期內Meena難以推出。」

另外,在實用性方面,誠然Meena作為一款開放領域聊天機器人,能夠實現多輪對話。不過Meena並不能協助用戶完成某項任務、學習某項新技能,或為身處困境的用戶給予情感或心理支持,和用戶的聊天沒有明確的目的。而耗費時間進行無意義的交談,在我們所處的時代大背景下似乎並非理想產品。

與此同時,記者Ronald Ashri也對Meena提出了進一步質疑。正如上文所述,Google從公共領域社群媒體對話上,過濾得到了341GB的文本,以此進行進一步的訓練。那麼,數百萬的公共領域社群媒體對話,會是這一所謂的「史上最強聊天機器人」的正確數據集嗎?Meena是否會講出不恰當的話,可能也是一個我們要關注的點。

近年來,隨著越來越多的AI聊天解決方案進入生活,我們需要關注最有價值的東西,就是定義類似人類的對話,並探究這類對話在聊天機器人領域中的角色。

正如Ronald Ashri所說:「Meena讓我們更接近目標,但尚未讓我們達到目標。」

本文為雷鋒網授權刊登,原文標題為「26 億參數量,水平接近人類,Google 的開放領域聊天機器人意義何在?