蘋果又發大模型論文，Siri未來也許能「看懂」螢幕了

蘋果近日發表的一篇語言模型相關的論文，預示了未來的Siri可能擁有讀懂螢幕的能力，這意味著蘋果終端設備更智慧的交互能力。

4月2日消息，蘋果研究團隊發表了一篇名為《ReALM: Reference Resolution As Language Modeling》的論文，主題在於解決非對話實體（non-conversational entities）中的指代消解（Reference resolution）問題。

文章摘要指出，雖然大語言模型被證明在許多任務處理中表現強大，但在螢幕實體、後台實體等非對話實體中的指代理解能力，還沒有得到充分的開發利用。

其中，「對話實體」指的是在對話過程中出現的具體對象或概念，可以是任何提及並被討論的事物，例如人名、地點、事件、產品、觀點等；「螢幕實體」指的是用戶在電子設備螢幕上可以看到的各種元素，例如文本、圖標、按鈕、圖片、視頻等；「後台實體」通常指的是在電子設備的操作系統或應用程式中運行的、對用戶不可見的進程和服務。

這篇文章主要展示了，如何利用大語言模型建立能夠解析各種類型指代（尤其是非對話實體）的高效系統。

團隊的方法是將其轉化為一個純粹的語言建模問題，具體而言，ReALM（該模型的名稱）通過已經解析的實體及其位置來重建螢幕，生成一個可視覺辨識的文本，並通過對螢幕中的實體進行標注，使其具備出現所在位置的上下文，這就使得系統能夠理解用戶在螢幕上看到的內容。

蘋果研究團隊在結果中展示了不同模型在各種數據集上的準確性結果，包括ReALM-80M/250M/1B/3B四種參數大小模型，並與GPT-3.5和GPT-4都進行了對比。數據顯示，這種針對指代消解進行微調的語言模型，在多數表現上優於GPT-4。

最新發表的這篇論文，表明了蘋果的努力方向之一就在於加強Siri以及其他產品對於實體及其上下文的感知和解析能力，這可能讓蘋果在硬體設備的智慧交互水準上相較競爭者佔據優勢。

不過研究人員也明確指出，依靠螢幕的自動解析存在侷限性，因為在更複雜的視覺指代解析中，如區分多個圖像，可能需要結合電腦視覺和多模態技術。

在AI大模型、生成式AI等AI技術上，蘋果雖然入局稍晚，但動作高效且成果頗為明顯，在AI上的投入方向也越來越明朗。

本月初，蘋果已經發表了一篇論文，公佈自己研發的MM1多態大語言模型(Multimodal LLM)，最大擁有300億參數（並不算一個很高的數值），但尚未公測或公布上線時間。

公司似乎也正在籌備讓Siri接入大模型，據極客公園報導，今年1月，有開發者在iOS 17.4的開發者預覽版Beta中，發現了與大模型相關的技術程式碼。

這些程式碼表明，蘋果正在開發一個由大模型支持的新版本Siri。

在蘋果之前，其全球範圍內最大競爭對手三星已經在AI手機上搶跑，在最新旗艦系列中打出Galaxy AI戰略，從翻譯、拍照、修圖、搜尋等方面全面加入AI能力，並在中國市場也迅速找到百度、WPS、美圖等公司完成本土化落地。

事實上，現有智慧型手機的AI功能主要圍繞應用層，效果在於提升個別功能的使用效率，但除了即時通話翻譯這樣的場景屬於剛需的一種，其他方向的效果還沒有足夠驚艷。

所以如果是要強大到撬動用戶的換機訴求，賽道中還沒有出現這樣的AI手機選手。

蘋果這篇論文留出的想像空間在於，如果Siri對於螢幕實體有了足夠強的理解能力，那用戶可以發起的智慧交互範疇就會明顯擴大。

例如，也許未來用戶可以通過語音讓Siri在某個外賣平台上進入某家店鋪訂一份餐，這個交互步驟的確是基於現狀的大幅度簡化。

但這會是用戶想要的新iPhone嗎？或許蘋果也沒有答案，市場可以期待的是，在蘋果今年的WWDC（全球開發者大會）上，它會給這場挑戰起一個什麼樣的開頭，使得觀眾不會唏噓它遲到如此之久。

本文為界面新聞授權刊登，原文標題為「蘋果又發大模型論文，Siri未來也許能「看懂」屏幕了」