微軟公布多模態模型MM-Navigator，基於GPT-4V研發

微軟公布多模態模型MM-Navigator，基於GPT-4V研發

品玩 / 何渝婷編譯

2023-11-28 16:25

根據《 Arxiv 》頁面顯示，微軟近日聯手加州大學等高校，共同發布一款多模態大模型產品 MM-Navigator。

MM-Navigator基於 GPT-4V打造，可用於零鏡頭智慧型手機 GUI 導航任務，通過使用 MM-Navigator，智慧型手機螢幕可以像人類用戶一樣進行交互，並確定後續行動以完成給定的指示。

研究發現，多模態大模型在零鏡頭 GUI 導航方面表現出色，尤其是 GPT-4V，它具有先進的螢幕解釋、行動推理和精確行動定位能力。

論文網址：https://arxiv.org/pdf/2311.07562.pdf

本文為品玩授權刊登，原文標題為「微軟公佈多模態模型 MM-Navigator，基於GPT-4V 研發」

Knowing

【專訪金管會副主委莊琇媛】讓資金不再流浪！從財管3.0到亞資中心，撥動兆元天平的財富歸巢計畫

【林富元專欄】投資家看黑白大廚，好像創業家企業家繽紛絢爛的競賽

AI 成為新一輪成長引擎！國發會揭示 2026 年經濟藍圖：鎖定 2 大成長目標、3 大政策主軸

【林宏文專欄】美中競賽已成合作與共榮局面？市場很大，各取所需兩強較勁下台灣勝出之道

把流量導進商圈！產官學跨界交流《AI型商·智慧商圈座談會》助攻高雄商圈數位轉型

台新銀行攜手虛擬資產交易所HOYA BIT禾亞數位科技合作新臺幣信託服務全天候出入金兼顧安全與便利性

驅動數位轉型新篇章！台電「共創數據永續新動能」論壇圓滿落幕

遠銀Bankee攜手警政署與VASP啟動跨域防詐網！三方聯防成功返還詐騙金額佔全臺1/4