微軟推出VASA-1 AI框架，可即時生成512x512 40FPS逼真對口型人像影片

根據微軟官方新聞稿，微軟公布了一項圖生影片的 VASA-1 框架，該 AI 框架只需使用一張真人肖像照片和一段個人語音音訊，就能夠生成精確逼真的對口型影片（生成念稿子的影片），據稱在表情和頭部動作方面特別自然。

目前業界相關許多研究都集中在對口型上，而臉部動態行為及頭部運動情況通常被忽視，因此生成的臉部也會顯得僵硬、缺乏說服力且存在恐怖谷現象。

而微軟的 VASA-1 框架克服了以往臉部生成技術的限制，研究人員利用了擴散 Transformer 模型，在整體臉部動態和頭部運動方面進行訓練，該模型將所有可能的臉部動態，包括嘴唇動作、表情、眼睛注視和眨眼等行為均視為單一潛在變量（即一次生成整個具有高度細節的人臉），號稱能夠即時生成 512×512 分辨率 40 FPS 的影片。

微軟還利用了 3D 技術輔助標記人臉臉部特徵，並額外設計了損失函數，號稱能夠讓 VASA-1 不僅能夠生成高品質的臉部影片，還能夠有效地捕捉和重現臉部 3D 結構。

本文為品玩授權刊登，原文標題為「微軟推出 VASA-1 AI 框架，可即時生成 512x512 40FPS 逼真對口型人像視頻」