蘋果發表研究論文,揭示Siri的秘密
venturebeat / 肖漫 / 何渝婷編譯
2020-02-04 09:45

(示意圖/取自pixabay)

蘋果公司的人工智慧助理軟體Siri,在全球有超過5億用戶,顯然,語音辨識是蘋果感興趣的重要領域之一。

上周,蘋果公司發表了一系列預印本(Preprint)研究論文,針對如何改進語音觸發檢測和說話人驗證,以及多說話人的語言辨識技術進行了研究。

揚聲器驗證和語音觸發檢測

在第一篇論文中,一組蘋果研究人員提出了一個訓練過的人工智慧模型,這個模型既能執行自動語音辨識任務,也能執行說話人辨識任務。

正如他們在摘要中所解釋的,語音助手辨識的命令,通常以觸發短句(例如,「嘿,Siri」)為前綴,檢測這個觸發短句涉及兩個步驟。

首先,人工智慧必須判斷輸入音頻中的語音內容,是否與觸發短句的語音內容相匹配(語音觸發檢測);其次,人工智慧必須判斷說話者的語音,是否與註冊用戶或用戶的語音相匹配(語音驗證)。

通常情況下,這兩項任務都是被獨立考慮的。但有合著者假設,對語音發起者的瞭解,可能有助於推斷出聲音資訊中的語音內容,反之亦然,這將有助於對這兩種屬性進行評估。

對此,研究人員設計了三套能夠學習語音和說話人資訊的模型,並對一組數據進行訓練,這些數據包含超過16000小時的帶注釋樣本,其中5000小時的音頻有語音標籤(其餘的為說話人標籤)。

不僅如此,還有超過100名受試者,使用智慧揚聲器設備在一系列聲學設置中為語料庫做出貢獻,包括安靜的房間、來自房間內電視或廚房設備的外部噪音,以及錄音機以大音量播放音樂。

值得一提的是,來自電視、廣播和Podcast的2000小時,不包含觸發短句的連續音頻記錄也被添加進來,以此來測量「誤報」率。

這些模型顯示出了學習語音和說話人資訊的能力,同時在相同數量的參數下,每個任務的準確性至少與基線模型相同。

事實上,在提出的三種模型中,有一種在「多重」設置下的表現優於說話者驗證基線,在文本無關的任務中相對於基線提高了7.6%。

研究人員認為,這樣的實驗結果是十分有趣的,因為這些模型是使用不相關的數據集訓練的,也就是說,每個音頻樣本要嘛有語音標籤,要嘛有說話人標籤,從來沒有兩者都有。

通過對結果的觀察,研究人員提出了一種靈活的設計,通過連接不同任務的訓練數據,而不是為每個訓練示例獲取多個標籤,從而在多個相關任務上訓練模型。從實用的角度來看,這樣能夠在兩個任務之間共享計算可以節省設備內存、計算時間或延遲,以及消耗的電量/電池。

錯誤觸發緩解

在研究中,有一項補充研究減少了錯誤觸發的發生,也就是說,語音助理有意地忽略了像Siri這樣的語音助理的語音。

研究人員表示,他們使用了圖形神經網路(GNN),這是一種操作在圖形結構上的人工智慧模型,其中每個節點都與一個標籤相關聯,目標是在沒有基礎事實的情況下,預測節點的標籤。

在論文中,研究人員寫道:「語音觸發的智慧助手通常在開始監聽用戶請求之前,就會檢測到一個觸發短句......錯誤的觸發,通常來自於背景噪音或聽起來類似於觸發短句的語音。因此,減少誤觸發,是建構以隱私為中心的非侵入性智慧助理的一個重要方面。」

在未來的工作中,該團隊計劃將基於GNN的處理擴展到其他任務,例如用戶意圖分類。

多語種說話人辨識

在另一篇論文中,蘋果研究人員探索了一種針對多語言使用者量身訂製的說話人語言辨識系統。

他們表示,語音辨識系統對大多數語言都有很高的準確性。但是,當有多重語言出現時,這個語言辨識系統的表現就不盡如人意了。因此,基於這樣的實施情況,研究人員決定展開說話人語言辨識系統的工作。

值得注意的是,《華盛頓郵報》近期委託進行的一項研究顯示,谷歌和亞馬遜生產的智慧音箱,聽懂本土用戶的語音,比聽懂非美式口音的概率高出30%。

同時,像Switchboard這樣的語料庫,也已經被證明對特定地區的使用者,存在可測量的傾斜,這個語料庫還是被IBM和微軟等公司,用來衡量語音模型錯誤率的數據集。

針對這種情況,合著者將有關使用模式的知識整合到一個聽寫系統中,該系統能夠為來自60多個地區的演講者做出決策。

其中,聲學子模型將根據語音訊號所傳遞的證據進行預測,而上下文感知預測組件,則考慮了各種交互上下文訊號,通過這兩方面的預測,來選擇最優的單語自動語音辨識系統。

據瞭解,上下文訊號包含了有關發出聽寫請求條件的資訊,包括有關已安裝的聽寫區域、當前選擇的聽寫區域,以及用戶在發出請求之前,是否切換了聽寫區域的資訊。

重要的是,它們有助於在語音訊號太短的情況下,依靠聲學模型產生一個可靠的預測。比如說,如果用戶同時安裝了英語和德語,像「naIn 」這樣的短而模糊的語句,在德語中可能是否定的「nein」,在英語中則是數字「nine」。

另外,為了評估該系統,研究人員還開發了一種自定義指標,稱為「平均用戶準確度」(Average User Accuracy,AUA),他們認為這種指標,能更好地反映模型中「人口水平」的使用模式。

通過對多語言使用者的128,000個,具有相應交互上下文資訊的聽寫話語的內部語料庫進行嚴格訓練,它在所有語言組合中實現了平均87%的準確性,同時將最差情況下的準確性,相對於基線提高了60%以上。

此外,在團隊調整參數以平衡準確性和延遲,與在設備上運行模型的計算負載之後,平均延遲從2秒減少到1.2秒,而對AUA的影響不超過0.05%。

本文為雷鋒網授權刊登,原文標題為「蘋果發佈論文,揭示 Siri 的秘密