微軟推出VASA-1 AI框架,可即時生成512x512 40FPS逼真對口型人像影片
品玩 / 何渝婷編譯
2024-04-22 13:45

根據微軟官方新聞稿,微軟公布了一項圖生影片的 VASA-1 框架,該 AI 框架只需使用一張真人肖像照片和一段個人語音音訊,就能夠生成精確逼真的對口型影片(生成念稿子的影片),據稱在表情和頭部動作方面特別自然。

目前業界相關許多研究都集中在對口型上,而臉部動態行為及頭部運動情況通常被忽視,因此生成的臉部也會顯得僵硬、缺乏說服力且存在恐怖谷現象。

而微軟的 VASA-1 框架克服了以往臉部生成技術的限制,研究人員利用了擴散 Transformer 模型,在整體臉部動態和頭部運動方面進行訓練,該模型將所有可能的臉部動態,包括嘴唇動作、表情、眼睛注視和眨眼等行為均視為單一潛在變量(即一次生成整個具有高度細節的人臉),號稱能夠即時生成 512×512 分辨率 40 FPS 的影片。

微軟還利用了 3D 技術輔助標記人臉臉部特徵,並額外設計了損失函數,號稱能夠讓 VASA-1 不僅能夠生成高品質的臉部影片,還能夠有效地捕捉和重現臉部 3D 結構。

本文為品玩授權刊登,原文標題為「微軟推出 VASA-1 AI 框架,可即時生成 512x512 40FPS 逼真對口型人像視頻