Google開放領域聊天機器人Meena，是史上最強嗎？

（示意圖/取自pixabay）

科技巨頭們時不時就宣布，在AI領域取得了突破性進展，對此我們已經見慣不驚了。

當地時間2020 年1月28日，Google在一篇部落格中，介紹了一款開放領域聊天機器人Meena，號稱「史上最強」，那麼這一新突破會讓人眼前一亮嗎？

【圖片來源：Google Blog】

開放領域聊天機器人開發難度大

實際上，設計智慧聊天機器人是為了應對資訊爆炸時代存在的資訊過載問題。最初，人們把聊天機器人當作搜索引擎的終極形態進行設計和開發。不同於現有的搜索引擎，聊天機器人可針對用戶的問題自然又通順地給出精準的答案，節約了很多時間，從而帶來更好的用戶體驗。

根據使用場景劃分，聊天機器人（chatbot）主要有開放域型（Open-Domain）和任務導向型（Task-Oriented）兩種。

其中，任務導向型主要有問答系統、對話系統聊天機器人，分別指基於用戶的問題給出一個回答（常用於智慧搜索、智慧家居中的家電控制等場景）和與用戶進行多輪對話的聊天機器人（如客服機器人、銷售機器人等）。

而開放領域聊天機器人（也稱閒聊式機器人），顧名思義針對開放域的對話場景，主題、內容不限，比如微軟小冰和蘋果Siri。Google在上述部落格文章中表示：「開放領域聊天機器人的研究，不僅具有學術價值，還可激發很多有趣的應用，如更深層次的人機交互、提升外語訓練效果，以及製作交互式電影和遊戲角色。」

值得一提的是，開放領域聊天機器人更符合人們心中對「人工智慧」的定位，開發難度自然也很大。當前開放領域聊天機器人，面臨的一個嚴峻問題在於，它們表達的內容往往沒有意義，無法與用戶的問題連貫起來，而且由於缺乏基本的常識和認知，不能給出針對性的回覆。

而Google開發的Meena正是一款開放領域聊天機器人，那麼相比現有的聊天機器人，究竟有何突破？

（Meena和人類的對話內容；圖片來源：Google Blog）

26億參數的端到端神經對話模型

Google在部落格文章中介紹稱，Meena是個26億參數的端到端訓練的神經會話模型，是GPT-2模型最大版本（15億參數）的1.7倍。據稱，Google利用400億字的數據集，通過2048個張量處理單元（即Tensor Processing Unit，Google專用AI晶片）訓練了30天，得到了最佳版本。實驗表明，比起聊天機器人SOTA，Meena能更好地完成對話，內容也更具體、清楚。

據悉，Meena由1個Evolved Transformer編碼器，和13個Evolved Transformer解碼器組成：編碼器用於處理對話語境，有助於Meena理解對方的話；而解碼器則會利用資訊生成回覆。而在這一過程中，Google 表示：「研究人員發現，超參數調整後，實現高品質對話的關鍵在於性能更強的解碼器。」

（圖片來源：Google Blog）

雷鋒網瞭解到，Google從公共領域社群媒體對話上，過濾得到了341GB的文本，並以樹狀脈絡形式組織文本進行「多輪對話」訓練。研究者將每輪對話作為訓練樣本，同時每輪之前的7輪對話為語境資訊，共同構成一組數據。據悉，選擇7輪對話作為語境，既能保證訓練過程獲得足夠長的語境資訊，同時模型也能不超過內存限制。畢竟文本越長，佔用的內存也越多。

新提出的人類評價指標SSA

根據部落格，上述這些表現是由Google根據新提出的人類評價指標「Sensibleness and Specificity Average (SSA)」得出的，而此次提出新的指標是因為，目前聊天機器人的人類評價指標頗為複雜，而且也很難形成一致的評價指標。Google表示，SSA能捕獲基本的、但對人類對話來說很重要的屬性。

為計算這一指標，研究者測試了Meena、Mitsuku、Cleverbot、DialoGPT及小冰等常見的聊天機器人。在測試中，對於每一款聊天機器人，研究者都在100個對話中收集了1600到2400輪，各聊天機器人的回覆都由人類評價者評分（主要依據對話的流暢性和回答的準確性），其各自性能表現如下圖。

（圖片來源：Google Blog）

不難看出，Meena相比於現有的SOTA聊天機器人，有著更高的SSA分數，甚至接近於人類的表現。

困惑度與SSA強相關

毫無疑問，人類評價或多或少存在一些問題，因此很多研究者都希望找到一個能夠自動計算的評價指標，而且這個指標要能和人類評價準確對應。

雷鋒網瞭解到，困惑度（perplexity，指一種任何神經會話模型都能輕易獲得的計算指標）是seq2seq模型（一種循環神經網路的變種，包括編碼器和解碼器兩部分，是自然語言處理中的一種重要模型，可用於機器翻譯、對話系統、自動文摘）中的一個常見指標，用於評價語言模型的不確定性。

而值得一提的是，Google證明了困惑度與SSA高度相關。

實際上，訓練Meena正是為了最大程度地減少困惑度，以及預測下一個標記（指對話中的下一個單詞）的不確定性。據部落格稱，這是因為Meena的核心為Evolved Transformer seq2seq架構，即一種通過進化神經架構搜索發現的Transformer體系結構，能夠改善困惑度。

在文章中，Google 表示，研究者依據層數、注意力數量、訓練步數、編碼器、訓練方式等因素，共測試了8種不同的模型，發現困惑度越低，SSA分數越高，同時兩者的相關係數很高（R^2 = 0.93）。

（圖片來源：Google Blog）

同時Google表示：「研究者將繼續透過改進算法、架構、數據和計算量等，降低這一神經會話模型的困惑度。」

Meena意義大嗎？

根據部落格中展示的數據，我們相信Meena優秀的準確性，不過Meena究竟什麼時候能推出、真正推出後表現如何，可能都要打問號。文章中提到，目前研究團隊正在針對這一研究的風險及益處，做進一步的評估，並可能在未來幾個月內推出Meena，旨在推動該領域的發展。

對此，VentureBeat記者Ronald Ashri在其報導中表示：「首先我們要意識到，即便Google開源所有程式碼，也很少有人能培訓類似Meena的模型。Meena應該還在實驗室裡，操作起來也非常複雜，還不能將其整合到一個工具中，而且Google也不可能很快就將其作為一項服務向用戶提供。因此，恐怕短期內Meena難以推出。」

另外，在實用性方面，誠然Meena作為一款開放領域聊天機器人，能夠實現多輪對話。不過Meena並不能協助用戶完成某項任務、學習某項新技能，或為身處困境的用戶給予情感或心理支持，和用戶的聊天沒有明確的目的。而耗費時間進行無意義的交談，在我們所處的時代大背景下似乎並非理想產品。

與此同時，記者Ronald Ashri也對Meena提出了進一步質疑。正如上文所述，Google從公共領域社群媒體對話上，過濾得到了341GB的文本，以此進行進一步的訓練。那麼，數百萬的公共領域社群媒體對話，會是這一所謂的「史上最強聊天機器人」的正確數據集嗎？Meena是否會講出不恰當的話，可能也是一個我們要關注的點。

近年來，隨著越來越多的AI聊天解決方案進入生活，我們需要關注最有價值的東西，就是定義類似人類的對話，並探究這類對話在聊天機器人領域中的角色。

正如Ronald Ashri所說：「Meena讓我們更接近目標，但尚未讓我們達到目標。」

本文為雷鋒網授權刊登，原文標題為「26 億參數量，水平接近人類，Google 的開放領域聊天機器人意義何在？」