微軟發布VALL-E2模型,配音效果可達到人類水準
品玩 / 何渝婷編譯
2024-07-24 16:06

根據 Arxiv 頁面顯示,微軟近期發布文本到語音模型 VALLE-2,首次實現了與人類同等的水準。

據悉,VALLE-2採用零樣本學習技術,僅需一段簡短的陌生語音樣本,就能模仿相同的聲音說出任意文本內容,展現了驚人的即時模仿能力。

不過研究者表示,雖然 VALL-E 2 有很強的零樣本學習能力可以像配音員一樣模仿聲音,但相似度和自然度取決於語音 prompt 的長度和質量、背景噪音等因素。

在主觀評分(SMOS和CMOS)和客觀指標(SIM、WER和DNSMOS)上,VALLE-2不僅超越了前代模型VALLE,在某些方面甚至優於人類真實語音。

本文為品玩授權刊登,原文標題為「微軟發佈 VALL-E2 模型,配音效果可達到人類水平