Hugging Face推出最小視覺語言模型,可在低算力設備上運行
品玩 / 何渝婷編譯
2025-01-24 15:00

根據 Hugging Face 頁面顯示,旗下最小多模態大模型SmolVLM-256M 近日發表,它可以接收任意序列的圖像和文本輸入,從而產生文本輸出。

據悉,SmolVLM-256M的設計旨在提高效率,SmolVLM 可以回答有關圖像的問題、描述視覺內容或轉錄文本,它的輕量級架構使其適用於設備上的應用,同時在多模態任務中保持強勁的性能。

只需不到 1GB 的 GPU 內存,它就能在一幅圖像上進行推理。

需要注意的是,該模型不支持圖像生成。

本文為品玩授權刊登,原文標題為「Hugging Face推出最小視覺語言模型,可在低算力設備上運行