(取自微軟官網)
微軟亞洲研究院(Microsoft Research Asia)近日發表論文,介紹了全新的 VASA-1 模型,用戶只需要提供一張靜態肖像圖片和一段語音音訊片段,該模型就能自動讓圖片中的人物自動說話。
VASA-1 特別有趣的地方在於,它能夠模擬自然的臉部表情、各種情緒和唇部同步,最重要的是幾乎沒有人工痕跡,如果不細看很難發現。
研究人員還表示 VASA-1 支援離線 batch 處理模式下,以 45fps 生成分辨率為 512*512 的動態短影音,線上直播模式下可以達到 40 fps,且延遲僅為 170ms。
而且整個生成操作,只需要一台配備NVIDIA RTX 4090 顯卡的電腦上就能處理。
本文為品玩授權刊登,原文標題為「讓蒙娜麗莎唱饒舌,微軟發佈 VASA-1 模型:圖 + 音頻可生成短視頻」