科技在進步,以往礙於手指不靈活而難以使用手機打字的阿北阿母,靠著語音輸入也能享受與好友互丟訊息的樂趣了。以往我們認為語音輸入是給長輩用的玩意,年輕人還是覺得用手輸入比較靠譜,殊不知,最近美國史丹福大學、華盛頓大學與百度聯手設計的實驗推翻了大家的認知,語音輸入錯誤率已不輸手動輸入囉!
深度學習使電腦level up
根據《明日科學》,一項由美國史丹福大學、華盛頓大學與百度聯手設計的實驗,測試英語與中文的語音輸入的效率,發現不僅速度比手動打字快三倍,而且錯字率方面英語的錯誤率比人類低 20.4%,國語更是低 63.4%。
其實語音辨識正確率及速度近幾年本就有長足的發展,只是因為大家對手機辨識能力向來信心不足,忽略了電腦程式因為深度學習(deep learning)科技正快速地優化語言辨識能力。不過另一個更實際的原因是:尷尬。畢竟人們還是習慣無聲地打字,對著冷冰冰的電腦或手機講話總是會覺得滑稽,更別提在公共場所中使用語音輸入了。
不僅是語辨識技術在進化,靠著越來越大量的雲端語音資料庫與巨量分析技術也使之更上層樓,人工智慧不斷地分析巨量資料讓語音分析能力隨時都在進步,不斷降低會錯意、用錯字的機率。
深度學習怎麼理解?
深度學習已不是什麼冷門的名詞了,尤其是AlphaGo打敗李世乭一役,全世界對於人工智慧相關的一切又更加關心。問題是電腦要怎麼深度學習?
所謂深度學習就是一個龐大的函數集,工程師輸入材料並篩出想要的結果,讓電腦程式不斷地試誤學習,久之電腦就會找出最佳解,其實就跟人類的學習模式很像。
(你是怎麼認出哈士奇的?)
具體而言,以人類的思考模式為例,我們為什麼可以認出某隻狗是哈士奇?我們剛開始會有很模糊的辨識指標,比如體型比較大、眼白較澄澈、鼻子比較大、臉中央常有個白色菱形、臉比較長等等,所有的指標綜合出一個答案:Yes or No,剛開始可能會認錯,明明是哈士奇卻以為不是,或不是哈士奇卻誤認,久而久之,我們對於哈士奇的辨識指標會越來越細微而正確,刪掉一些不好用的辨識指標,比如鼻子比較大、體型比較大等等,然後我們就可以一眼認出哈士奇了。
深度學習與上述類似,工程師設計眾多的函數,模仿上述所講的「辨識指標」,然後給資料讓那些函數去分析,那些函數綜合衍算後會給出很多答案,而工程師就去揀取自己想要的答案,給電腦程式一個方向。久而久之電腦就會把常常跑出錯誤結果的函數捨棄,逐漸整理出最有效的辨識函數集。然後電腦就「學習有成」了。
深度學習能夠取代人腦嗎?
雖然深度學習能夠高效地在某個領域取得成果,但它所倚賴的仍然是人類工程師給予的訓練模式,一旦轉換領域深度學習再厲害也無用武地,好比說,AlphaGo程式再厲害也無法打敗西洋棋選手,換了領域就無所適從的深度學習其實是低階的人工智慧。
十幾年前豐年果糖有個很紅的廣告詞「爸爸,為什麼我們家沒有電腦?」「因為爸爸的頭腦比電腦好啊!」真的,直到現在電腦運算科技仍然不斷師法人腦,一步一步地提高智能。
延伸閱讀:當AI學會創作 人類還能驕傲多久?