隨著準確性提升 語音識別開啟人機交互新范式
發布日期:2017-09-22
點擊次數:1249
中國語音產業聯盟數據顯示,2015年全球智能語音產業規模達61.2億美元,同比增長34.2%,預計到2017年市場總規模將超過100億美元。其中,2015年中國智能語音市場規模達40.3億元,同比增長41%,高于全球同期增速。預計未來兩年,中國市場將保持60%左右的增速,全球市場份額將進一步提升,側面說明統計機構對國內語音市場的認可。
近二十年,語音識別技術取得顯著進步,但識別的準確性問題一直阻礙著智能語音的進一步發展。隨著準確性的提升,語音識別應用范圍將不斷拓寬,語音交互也逐漸成為可能。
語音識別是一門交叉學科,也被稱為自動語音識別。其目標是將人類的語音中的詞匯內容轉換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。與說話人識別及說話人確認不同,后者嘗試識別或確認發出語音的說話人而非其中所包含的詞匯內容。
二十世紀末,語音識別系統已經在電腦游戲和玩具,不同樂器的控制,數據采集和聽寫等方面發現了廣泛的應用。而在近二十年,由于人工智能和機器學習迅猛發展,語音識別技術取得顯著進步,語音控制也變得更為實用,開始從實驗室走向市場。
《互聯網趨勢》報告中曾談及語音將是人機交互的新范式,語音技術將解放人類雙手和眼睛,用戶以較低的成本實現隨時訪問。人們預計,未來10年內,語音識別技術將進入工業、家電、通信、汽車電子、醫療、家庭服務、消費電子產品等各個領域。未來與智能家居 、可穿戴設備、機器人等交互模式,語音將是最佳人機交互模式。
據悉,智能語音技術涉及多個學科,具備技術壁壘較高,研發周期長,投入大等屬性,只有綜合實力突出的廠商才能脫穎而出,因此造就寡頭壟斷市場格局。自2011年蘋果開發第一個智能語音助手Siri之后,Google、微軟、亞馬遜、Facebook陸續加入陣營,這些智能助手各自嫁接在智能移動設備終端上。
但識別的準確性問題一直阻礙著智能語音的不斷發展。目前在實際應用中,我們看見語音識別多是在智能家居 領域,比如智能家電或智能音箱。此時,我們就需要考慮一個問題了,當多個家庭成員同時講話時,智能家電或智能音箱該執行誰的命令呢?它們又如何能在眾多聲音中找出自己主人的命令?這些都是當前語音識別所需要解決的問題,畢竟我們通常所說的語音識別不僅僅只是單純的對語音內容進行識別。
在這一方面,微軟最近有了新進展。微軟語音團隊黃學東介紹,“去年10月,在我們的轉錄系統達到5.9%的錯誤率之后,其他研究人員也進行了自己的研究,采用了更多參與的多轉錄程序,將錯誤率降低至5.1%。這是一個新的行業里程碑,大大超過了去年實現的準確性。”
按照黃學東所說,從研究角度來說,這個意義十分重大,即便是0.1%的差距,無論是運算量還是時間,耗費都是巨大的:“你知道0.1、0.2、0.3的差距要跑多少時間才會達到,錯誤率的計算應該按照相對錯誤率來看,5.9到5.1相對錯誤率應該是13%左右,相對錯誤率超過13%,統計上已經有重要意義了。”簡單來說,微軟語音團隊是通過改進微軟語音識別系統的神經網絡聲學和語言模型,將錯誤率大大降低。
隨著準確性的提升,語音識別應用范圍將不斷拓寬,語音交互也逐漸成為可能。不過在語音識別更新迭代的過程中,新舊共存現象必可避免,在初期混亂的市場藍海中,只有看清發展大勢,方能真正抓住機遇,迎來新發展。