新加坡推出短影音AI理解新技術video-SALMONN

新加坡推出短影音AI理解新技術video-SALMONN

品玩 / 何渝婷編譯

2024-07-31 16:00

根據 Arxiv 頁面顯示，新加坡國立大學的Wenyi Yu及其團隊提出了一項名為video-SALMONN的新技術，它不僅能夠理解影片中的視覺幀序列、音訊事件和音樂，更重要的是，它能夠理解影片中的語音內容。

SALMONN是一種端到端的音訊-視覺大型語言模型（av-LLM），它通過一種新穎的多分辨率因果Q-Former(MRC Q-Former)結構，將預訓練的音視訊編碼器與大型語言模型的主體連接起來。

這種結構不僅能夠捕捉到語音理解所需的細粒度時間資訊，同時也保證了對其他影片元素的高效處理。

為了提高模型對不同視頻元素的平衡處理，研究團隊提出了專門的訓練方法，包括多樣性損失和未配對音視頻混合訓練策略，以避免影片幀或模態的主導。

本文為品玩授權刊登，原文標題為「新加坡推出短視頻AI理解新技術video-SALMONN」

Knowing

【專訪】Chainvestigate執行長陳采履：幣流分析不只是打詐工具，更是Web3時代信任的基礎！

AI與Web3時代的軟硬融合契機，台灣不能再錯過！第十屆《WHATs NEXT》台灣網路產業高峰會今日成功舉辦

《WHATs NEXT》美國馬里蘭大學終身講座教授暨工業人工智慧中心主任李傑：善用數據分析，讓人來領導AI，而非AI來領導人！

《WHATs NEXT》台灣大哥大Web3事業副總經理暨富昇數位總經理韓昆舉：導入區塊鏈能同時完成資訊流與金流，使支付流程更透明、安全且高效

《WHATs NEXT》美國安卓樂資本(Andra Capital)董事長林家振：企業端的採用狀況，是衡量AI成效的最客觀指標

《WHATs NEXT》環球睿視執行長蘇育民：未來AI的競爭不只是軟體或硬體單一發展，而是「AI軟加硬」的整合模式

【林宏文專欄】輝達宣布投資OpenAI千億美元「AI超級良性循環」形成投資人要警覺了嗎？

《WHATs NEXT》財團法人商業發展研究院董事長許添財：台灣網路與數位科技發展，應有總體經濟的思維與國際戰略觀！

《WHATs NEXT》立法委員許智傑：高雄正在積極進行智慧轉型，期待能夠成為AI應用最強的城市