Google發表開源視覺語言模型PaliGemma,支援多視覺語言任務
品玩 / 何渝婷編譯
2024-05-17 16:00

(取自Google臉書粉專)

Google近日宣布,推出了一款名為PaliGemma的開源視覺語言模型,該模型結合了圖像處理和語言理解的能力,旨在支援多種視覺語言任務,如圖像和短影音字幕生成、視覺問答、圖像文本理解、物體檢測、文件圖表解讀以及圖像分割等。

據悉,PaliGemma能夠處理多種視覺語言相關的任務,提供廣泛的應用場景,該模型包含30億(3B)個參數,是一個大型的多模態模型。

PaliGemma結合了SigLiP視覺編碼器和Gemma語言模型,分別負責處理圖像和文本輸入。

PaliGemma的發表,是Google在AI領域的又一項重要貢獻,它不僅推動了視覺語言理解技術的發展,也為研究人員和開發者提供了強大的工具,以探索和創造新的應用。

開源的特性意味著PaliGemma可以被社群廣泛地使用、改進和集成到各種產品和服務中。

本文為品玩授權刊登,原文標題為「谷歌發佈開源視覺語言模型PaliGemma 支持多視覺語言任務