從語音識別到語義識別,中間還有多長的路要走?
圖|語音發(fā)展史
語音識別產品應用
語音識別作為打造良好交互體驗的重要前提,今年的發(fā)展可謂是持續(xù)火爆。在智能音箱市場,首先想到的就是Amazon的Echo。Echo作為將自然語音轉化為在線指令的設備,其效率之高無容置疑,并且可保持在線的自然環(huán)境中的自然語言識別。
Echo的核心技術在于它集成的智能語音助手Alexa。在2015年6月25日亞馬遜曾宣布,將開放智能語音硬件Echo的內置AI助手Alexa的語音技術,供第三方開發(fā)者免費使用。由此可見,亞馬遜向用戶呈現出來的不僅僅是技術上的領先,還有真正落地的產品,以及良好的產品體驗。
與此同時,國內語音識別領域也開始爭奪大戰(zhàn)。以科大訊飛聽見系列產品為例,自2015年發(fā)布以來,總用戶突破1000萬,應用于30余個行業(yè)。目前,已經形成了以聽見智能會議系統、訊(詢)問筆錄系統、聽見轉寫網站、錄音寶APP、聽見智能會議服務等以智能語音轉寫技術為核心的產品和服務體系。
語音識別技術瓶頸
從下圖可以看出,語音識別的誤字率呈明顯的下降趨勢。
然而,即使達到100%的準確率,僅限于輸入法功用的語音識別也無人機互動的意義,它還算不得真正的人工智能。
我們所期望的語音識別實質上是人機交互,大致上可以理解為人與機器之間無障礙溝通。要達到這種期望,光靠誤字率很低甚至為零的語音識別可能并不能做到,那么就需要有“大腦”的語義識別了,相對于語音識別,它可以通過人們的語氣、談話的內容等等判斷用戶說的話到底是什么意思,而不是簡單的一字不落的識別出所說的內容。比如說:小沈陽長得可真帥!在不同的語境下卻有著截然相反的意思。
從“傻白甜”的語音識別到“帶腦子”的語義識別,還有很長的路要走。
口音和噪聲
語音識別中最明顯的一個缺陷就是對口音和背景噪聲的處理。最直接的原因是大部分的訓練數據都是高信噪比、美式口音的英語。
上圖中可以看到有口音的情況下,人的錯誤率低于模型;從高信噪比到低信噪比,人與模型之間的錯誤率差距急劇擴大。
語義錯誤
實際上語音識別系統的目標并不是誤字率。人們更關心的是語義錯誤率。
舉個語義錯誤的例子,比如某人說“l(fā)et’smeetupTuesday”,但語音識別預測為“l(fā)et’smeetuptoday”。我們也可能在單詞錯誤的情況下保持語義正確,比如語音識別器漏掉了“up”而預測為“l(fā)et’smeetTuesday”,這樣話語的語義是不變的。
將模型與人工進行比較時的重點是查找錯誤的本質,而不僅僅是將誤字率作為一個決定性的數字。
微軟研究人員將他們的人工級語音識別器的錯誤與人類進行過比較。他們發(fā)現的一個差異是該模型比人更頻繁地混淆“uh”和“uhhuh”。而這兩條術語的語義大不相同:“uh”只是個填充詞,而“uhhuh”是一個反向確認。這個模型和人出現了許多相同類型的錯誤。

請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
-
即日-9.1立即下載>> 【限時下載】ADI中國三十周年感恩回饋助力企業(yè)升級!
-
即日-9.16點擊進入 >> 【限時福利】TE 2025國際物聯網展·深圳站
-
10月23日立即報名>> Works With 開發(fā)者大會深圳站
-
10月24日立即參評>> 【評選】維科杯·OFweek 2025(第十屆)物聯網行業(yè)年度評選
-
11月27日立即報名>> 【工程師系列】汽車電子技術在線大會
-
12月18日立即報名>> 【線下會議】OFweek 2025(第十屆)物聯網產業(yè)大會
- 1 阿里首位程序員,“掃地僧”多隆已離職
- 2 先進算力新選擇 | 2025華為算力場景發(fā)布會暨北京xPN伙伴大會成功舉辦
- 3 宇樹機器人撞人事件的深度剖析:六維力傳感器如何成為人機安全的關鍵屏障
- 4 清華跑出具身智能獨角獸:給機器人安上眼睛和大腦,融資近20億
- 5 特朗普要求英特爾首位華人 CEO 辭職
- 6 踢館大廠和微軟,剖析WPS靈犀的AI實用主義
- 7 騰訊 Q2 財報亮眼:AI 已成第二增長曲線
- 8 谷歌吹響AI沖鋒號,AI還有哪些機會
- 9 蘋果把身家押在Siri上:一場輸不起的自我革命
- 10 共探合作新機遇!江門市新會區(qū)(深圳)“AI + 機器人” 產業(yè)對接會成功舉辦