讓蒙娜麗莎唱饒舌,微軟發表VASA-1模型:圖 + 音訊可生成短影音
品玩 / 何渝婷編譯
2024-04-19 14:28

(取自微軟官網)

微軟亞洲研究院(Microsoft Research Asia)近日發表論文,介紹了全新的 VASA-1 模型,用戶只需要提供一張靜態肖像圖片和一段語音音訊片段,該模型就能自動讓圖片中的人物自動說話。

VASA-1 特別有趣的地方在於,它能夠模擬自然的臉部表情、各種情緒和唇部同步,最重要的是幾乎沒有人工痕跡,如果不細看很難發現。

研究人員還表示 VASA-1 支援離線 batch 處理模式下,以 45fps 生成分辨率為 512*512 的動態短影音,線上直播模式下可以達到 40 fps,且延遲僅為 170ms。

而且整個生成操作,只需要一台配備NVIDIA RTX 4090 顯卡的電腦上就能處理。

本文為品玩授權刊登,原文標題為「讓蒙娜麗莎唱饒舌,微軟發佈 VASA-1 模型:圖 + 音頻可生成短視頻