微軟發布VALL-E2模型，配音效果可達到人類水準

微軟發布VALL-E2模型，配音效果可達到人類水準

品玩 / 何渝婷編譯

2024-07-24 16:06

根據 Arxiv 頁面顯示，微軟近期發布文本到語音模型 VALLE-2，首次實現了與人類同等的水準。

據悉，VALLE-2採用零樣本學習技術，僅需一段簡短的陌生語音樣本，就能模仿相同的聲音說出任意文本內容，展現了驚人的即時模仿能力。

不過研究者表示，雖然 VALL-E 2 有很強的零樣本學習能力可以像配音員一樣模仿聲音，但相似度和自然度取決於語音 prompt 的長度和質量、背景噪音等因素。

在主觀評分（SMOS和CMOS）和客觀指標(SIM、WER和DNSMOS)上，VALLE-2不僅超越了前代模型VALLE，在某些方面甚至優於人類真實語音。

本文為品玩授權刊登，原文標題為「微軟發佈 VALL-E2 模型，配音效果可達到人類水平」

Knowing

《Hit AI & Blockchain》國立臺灣大學資訊工程學系暨資訊網路與多媒體研究所副教授廖世偉：錢的本質是共識，流動性才是市場核心

讓 AI 長出手腳！國家智慧機器人研究中心今揭牌，5 大關鍵佈局一次看

【王智立專欄】投資新思維：問對問題

【林宏文專欄】太空第一股SpaceX值不值1.75兆美元？四角度看新股掛牌潛力，看馬斯克如何將信徒變成瘋狂追價的小股東

【林富元專欄】暫停的力量，讓你真正返璞歸真而得勝，如何開始？就從停止再說“我現在忙死了”開始！暫停的力量其一

【楊方儒專欄】中製APP侵台，AI新十大建設如何打造地圖國家隊？

【張瑞雄專欄】AI復活亡者電影業的倫理界限在哪裡？

【專訪】告別影子銀行時代！ADVANCE.AI 產品總監張毅深入解讀 Web3 監管矩陣與 AI 防線

驅動臺南製造新戰力！「2026 AI 應用製造業實戰交流會」南科登場，賦能傳統產業智慧升級