AI語音助理有「情緒」了，說話越來越像人

（取自Amazon.com 粉絲專頁）

在電影《雲端情人》（Her）裡，人工智慧語音助理莎曼珊（Samantha）擁有迷人的聲線，溫柔體貼而又幽默風趣，與男主角展開了一段柏拉圖式的愛情。

然而在現實中，你可能都不願意和Siri多說兩句話，因為這些語音助理不只是「蠢」，說話語氣還很生硬，一點也不像人，但最近亞馬遜的語音助理Alexa，已經可以用不同語氣來回應用戶的問題了。

今天亞馬遜公布了語音助理Alexa的最新進展，Alexa可以在與用戶交流時，以高興、激動、失望、同情等不同情緒的口吻來回應。開發人員表示，希望這項新技能有助於創造出「更自然、直觀的語音體驗」。

（圖片來自：memoori）

Alexa可以在聲音裡表達不同情緒，會讓她在很多場景看起來更加貼心。比如當你向Alexa詢問一場比賽的結果時，如果你支持的球隊輸了，她就能用失望和安慰的語氣來告訴你。

亞馬遜還在官網發布了6段Alexa不同語氣的音檔，分別是失望和高興兩種語氣，而每種語氣根據情緒程度，又分為從弱到強三種層次。

至於效果如何就見仁見智了，The Verge的編輯就認為，Alexa失望的語氣聽起來一點也不失望，但最強程度的高興語氣，聽起來像是贏了一場遊戲。

Alexa除了可以展示不同語氣，還能模仿電台DJ的聲音，以一種新的「專注於主題（topic-focused）」的聲音來討論音樂。早在今年一月，亞馬遜就讓Alexa模仿新聞主播的語氣來播報新聞。

為什麼過去很長一段時間，語音助理說話語氣都比較生硬，不能像人一樣說話？要回答這個問題，需要簡單瞭解語音助理說話的原理。

根據人工智慧公司Rokid A-Lab的Meng Meng，在大陸問答網站「知乎」上的回答，目前主流的語音助理都是基於TTS（文本轉語音，text-to-speech）技術，要表達除抑揚頓挫的語氣，就要透過大量音檔數據學習，但要以恰當的情緒表達出文本的含義，往往還要對上下文有所理解。

（圖片來自：Medium）

而這些數據學習還得依賴人工來進行數據標註，而且比起英文，中文的含義又更加複雜，花費的時間很長，科技公司一般會優先做通用的語氣，因此語音助手的語氣都非常單調。

Alexa之所以能擁有更豐富的情感和語氣，主要依靠一項叫做NTTS（神經文本轉語音）的技術，這是基於TTS升級的一項技術，通過深度神經網路，讓語音助理知道應該強調哪些音節，聽起來更加自然。

這種技術不僅能讓語音助理說話更像一個人，而且還能快速掌握不同的語音風格，花費數小時就能讓Alexa像新聞主播一樣說話，不用像過去一樣，在數據標註上耗費大量時間。

當語音助理能表達的情感越來越豐富，未來人們或許真的可以和手機裡的「他/她」談戀愛了，像《戀與製作人》這類戀愛養成遊戲，可能就更加令人欲罷不能了。

本文為愛范兒授權刊登，原文標題為「語音助手有「情緒」了，說話越來越像人」