讓蒙娜麗莎唱饒舌，微軟發表VASA-1模型：圖 + 音訊可生成短影音

讓蒙娜麗莎唱饒舌，微軟發表VASA-1模型：圖 + 音訊可生成短影音

品玩 / 何渝婷編譯

2024-04-19 14:28

（取自微軟官網）

微軟亞洲研究院（Microsoft Research Asia）近日發表論文，介紹了全新的 VASA-1 模型，用戶只需要提供一張靜態肖像圖片和一段語音音訊片段，該模型就能自動讓圖片中的人物自動說話。

VASA-1 特別有趣的地方在於，它能夠模擬自然的臉部表情、各種情緒和唇部同步，最重要的是幾乎沒有人工痕跡，如果不細看很難發現。

研究人員還表示 VASA-1 支援離線 batch 處理模式下，以 45fps 生成分辨率為 512*512 的動態短影音，線上直播模式下可以達到 40 fps，且延遲僅為 170ms。

而且整個生成操作，只需要一台配備NVIDIA RTX 4090 顯卡的電腦上就能處理。

本文為品玩授權刊登，原文標題為「讓蒙娜麗莎唱饒舌，微軟發佈 VASA-1 模型：圖 + 音頻可生成短視頻」

Knowing

【新國會online】遭陳建仁嗆「外行」！新科立委廖偉翔謹記胡志強教誨爬起再戰

【新國會online】立法院壯世代政策及產業發展促進會即將成立！吳春城召集63位跨黨派立委欲推動《壯世代基本法》

蘋果將於5月7日舉行Let Loose發表會！新一代iPad Pro/Air 四大預測一次看

美國總統候選人小羅伯特甘迺迪希望將美國全部預算放在區塊鏈上，藉此提高透明度與問責制

【林宏文專欄】日本如何看待台灣半導體業？從四個問題看日台聯盟與半導體商機

【新國會online】盧秀燕耳提又面命！立委楊瓊瓔要用金頂電池的活力繼續跟民眾站在一起！

財經新內閣名單出爐！立委林思銘：台灣不能只靠半導體這個護國神山

財經新內閣名單出爐！立委吳春城呼籲：別忘了手握台灣三分之二以上財富的壯世代，已是另一座護國神山