根據 Arxiv 頁面顯示,新加坡國立大學的Wenyi Yu及其團隊提出了一項名為video-SALMONN的新技術,它不僅能夠理解影片中的視覺幀序列、音訊事件和音樂,更重要的是,它能夠理解影片中的語音內容。
SALMONN是一種端到端的音訊-視覺大型語言模型(av-LLM),它通過一種新穎的多分辨率因果Q-Former(MRC Q-Former)結構,將預訓練的音視訊編碼器與大型語言模型的主體連接起來。
這種結構不僅能夠捕捉到語音理解所需的細粒度時間資訊,同時也保證了對其他影片元素的高效處理。
為了提高模型對不同視頻元素的平衡處理,研究團隊提出了專門的訓練方法,包括多樣性損失和未配對音視頻混合訓練策略,以避免影片幀或模態的主導。
本文為品玩授權刊登,原文標題為「新加坡推出短視頻AI理解新技術video-SALMONN」