AI語音助理有「情緒」了,說話越來越像人
李超凡 / 何渝婷編譯
2019-11-28 15:10

(取自Amazon.com 粉絲專頁)

 

在電影《雲端情人》(Her)裡,人工智慧語音助理莎曼珊(Samantha)擁有迷人的聲線,溫柔體貼而又幽默風趣,與男主角展開了一段柏拉圖式的愛情。

 

然而在現實中,你可能都不願意和Siri多說兩句話,因為這些語音助理不只是「蠢」,說話語氣還很生硬,一點也不像人,但最近亞馬遜的語音助理Alexa,已經可以用不同語氣來回應用戶的問題了。

 

今天亞馬遜公布了語音助理Alexa的最新進展,Alexa可以在與用戶交流時,以高興、激動、失望、同情等不同情緒的口吻來回應。開發人員表示,希望這項新技能有助於創造出「更自然、直觀的語音體驗」。

 

(圖片來自:memoori)

 

Alexa可以在聲音裡表達不同情緒,會讓她在很多場景看起來更加貼心。比如當你向Alexa詢問一場比賽的結果時,如果你支持的球隊輸了,她就能用失望和安慰的語氣來告訴你。

 

亞馬遜還在官網發布了6段Alexa不同語氣的音檔,分別是失望和高興兩種語氣,而每種語氣根據情緒程度,又分為從弱到強三種層次。

 

至於效果如何就見仁見智了,The Verge的編輯就認為,Alexa失望的語氣聽起來一點也不失望,但最強程度的高興語氣,聽起來像是贏了一場遊戲。

 

Alexa除了可以展示不同語氣,還能模仿電台DJ的聲音,以一種新的「專注於主題(topic-focused)」的聲音來討論音樂。早在今年一月,亞馬遜就讓Alexa模仿新聞主播的語氣來播報新聞。

 

為什麼過去很長一段時間,語音助理說話語氣都比較生硬,不能像人一樣說話?要回答這個問題,需要簡單瞭解語音助理說話的原理。

 

根據人工智慧公司Rokid A-Lab的Meng Meng,在大陸問答網站「知乎」上的回答,目前主流的語音助理都是基於TTS(文本轉語音,text-to-speech)技術,要表達除抑揚頓挫的語氣,就要透過大量音檔數據學習,但要以恰當的情緒表達出文本的含義,往往還要對上下文有所理解。

 

(圖片來自:Medium)

 

而這些數據學習還得依賴人工來進行數據標註,而且比起英文,中文的含義又更加複雜,花費的時間很長,科技公司一般會優先做通用的語氣,因此語音助手的語氣都非常單調。

 

Alexa之所以能擁有更豐富的情感和語氣,主要依靠一項叫做NTTS(神經文本轉語音)的技術,這是基於TTS升級的一項技術,通過深度神經網路,讓語音助理知道應該強調哪些音節,聽起來更加自然。

 

 

這種技術不僅能讓語音助理說話更像一個人,而且還能快速掌握不同的語音風格,花費數小時就能讓Alexa像新聞主播一樣說話,不用像過去一樣,在數據標註上耗費大量時間。

 

當語音助理能表達的情感越來越豐富,未來人們或許真的可以和手機裡的「他/她」談戀愛了,像《戀與製作人》這類戀愛養成遊戲,可能就更加令人欲罷不能了。

 

本文為愛范兒授權刊登,原文標題為「語音助手有「情緒」了,說話越來越像人