Meta發表混合模態基座模型Chameleon,挑戰GPT-4o
品玩 / 何渝婷編譯
2024-05-20 15:00

(示意圖/取自pixabay)

根據 Arxiv 頁面顯示,Meta 近日發表論文,介紹旗下自研的混合模態基座模型Chameleon。

Meta表示,Chameleon有助於生成交錯的文本和圖像序列並進行推理,從而實現全面的多模式文檔建模。

與傳統模型不同,Chameleon採用了統一的架構,通過對圖像進行類似文本的標記化處理,對兩種模式一視同仁。

這種方法被稱為早期融合,可以實現跨模態的無縫推理,但也帶來了優化方面的挑戰。

為了解決這些問題,研究人員提出了架構改進和訓練技術,通過調整轉換器架構和微調策略。

本文為品玩授權刊登,原文標題為「Meta 發佈混合模態基座模型Chameleon,挑戰 GPT-4o