根據《 Arxiv 》頁面顯示,微軟近日聯手加州大學等高校,共同發布一款多模態大模型產品 MM-Navigator。
MM-Navigator基於 GPT-4V打造,可用於零鏡頭智慧型手機 GUI 導航任務,通過使用 MM-Navigator,智慧型手機螢幕可以像人類用戶一樣進行交互,並確定後續行動以完成給定的指示。
研究發現,多模態大模型在零鏡頭 GUI 導航方面表現出色,尤其是 GPT-4V,它具有先進的螢幕解釋、行動推理和精確行動定位能力。
論文網址:https://arxiv.org/pdf/2311.07562.pdf
本文為品玩授權刊登,原文標題為「微軟公佈多模態模型 MM-Navigator,基於GPT-4V 研發」
