智能機器人如何與人溝通?簡單的指令輸入早已不能滿足這個快節奏的社會,如果能夠語音操作該有多好。但是現在大部分智能機器人對于語言的識別與回應并不盡如人意,有些只能識別普通話,有些則只能進行一對一回應,如果是多人聊天模式,或者是在嘈雜的背景下,智能機器人就會“暈頭轉向”,不知所云。
想要解決這個問題并不簡單,不過近日,在美國舊金山舉行的第四屆國際多通道語音分離和識別大賽,中國參賽團隊通過完成六麥克風、雙麥克風和單麥克風場景下的語音分離和英文識別任務,最終奪冠。而這個技術解決的最重要問題,就包括在噪音環境下的語音識別。此次比賽的獲獎團隊來自科大訊飛,目前,他們已經把這項技術應用在了名為AIUI的人機交互解決方案上。
與機器人對話
語音識別技術,小到手機指令大到智能家居控制都有所體現,這讓生活變得更加便捷。但這并非語音識別的終極目標。如果在噪音環境下,多個人給同一個智能機器人下了命令,那么后者應該聽誰的,又應該如何應對呢?國際多通道語音分離和識別大賽比的就是如何解決這一類問題。
若想弄明白多通道語音,先明白語音識別的概念。首先,語音識別是指從語音到文本的轉換,也就是讓機器能夠聽懂人說的話。這其中包括兩層意思,一層是指把用戶所說的話逐詞逐句轉換成文本;二是指正確理解語音中所包含的要求,作出正確的應答。這其中語音語言學、信號處理、模式識別、概率論和信息論、發聲機理和聽覺機理、人工智能的交叉學科,是中文信息處理領域的一項前沿技術,解決的主要問題就是如何將文字信息轉化為可聽的聲音信息。
智能機器人對于人的語音的處理,與人類自身理解完全不同,它們先將連續的句子分解為詞、音素等單位,在理解語義的規則基礎上讀取其中的含義。如果說話的主體語音模糊或者口音較重時,智能機器人若沒有設置過相關的規則,則無法識別。甚至一個人在認真說話與隨意說話時的語調在智能機器人聽起來都有區別。再加上采集聲音時周圍環境的噪聲等,都會對機器人產生干擾,進而導致語音識別的誤差率增加。而多通道語音識別是指,通過多個麥克風采集聲源,再用麥克風陣列技術進行降噪之后,語音識別將會更加精確。
科大訊飛AIUI研發總監趙艷軍在接受《中國科學報》記者采訪時介紹說,AIUI同時擁有的回聲消除、置信度判決、連續語音解密等技術,人可以在任何時候對機器進行打斷發出需求,AIUI在遠場識別方面支持3~5米的識別距離,識別率達到90%。“AIUI還支持方言識別,全雙工交互,以及自動糾錯的功能。同時,用戶在和機器交流的時候發出的非相關語音,機器可以有效拒識。”趙艷軍說。
AIUI是目前世界上正在開發的人機交互解決方案之一。作為未來智能機器人的主流配置之一,商業化的語音交互平臺也是不少IT巨頭的研發重點。比如微軟的Speech API,是微軟推出的包含語音識別(SR)和語音合成(SS)引擎的應用編程接口(API),依托Windows平臺,可以之和朗讀英文、中文、日文等。另外一個巨頭是IBM,它是較早開始語音識別方面的研究的機構之一,在1984年時,IBM發布的語音識別系統在5000個詞匯量級上達到了95%的識別率。
自然流暢的交互體驗
在之前公布的一段視頻中,幾個人給一個搭載了AIUI的機器人半成品下達不同的命令,先是搜索歌曲,再來問天氣,然后讓訂機票,之后還有人要求機器人搜索一首歌手與歌名完全不符的歌曲。雖然只是半成品,但是視頻中的機器人不緊不慢地“接招”,還“毫不客氣”地指出歌名與歌手信息有誤,并善意地提醒是否要重新搜索。
“準確的反應歸結于硬件與軟件的不斷更新。”趙艷軍回應道。首先要克服的是交互環境的復雜性,比如用戶交互時各類的噪聲、多樣的口音、以及其他不可預知的干擾因素。其次,就是AIUI識別平臺中既長又復雜的研發鏈路,從前端的麥克風陣列技術到后端的語音喚醒、語義理解等服務,需要各組的人員協調、配合、溝通、合作,“這對整個項目團隊的要求是很高的。”
硬件方面,AIUI 也從之前的4+1麥克風陣列到最新的6+0麥克風陣列,讓其聲源定位、回聲消除、噪聲抑制等能力不斷增強,可以從容應對各種復雜的環境。“后續我們將持續優化和完善AIUI,進一步提升效果。如提高遠場識別的識別率,增加方言識別的自適性,提高語義理解的能力等,使得AIUI的體驗越來越完美。”趙艷軍說。
智能生活更進一步
語音交互技術的進步并不是孤立呈現的,它在智能機器人與人類溝通功能的提升中所做的貢獻功不可沒。這一貢獻體現在智能設備適用人群范圍擴大以及領域拓寬。比如,隨著智能設備和網絡的普及,越來越多的老齡人群、低齡人群、身體殘障人群使用智能設備。對于這些人群,觸控的交互方式并不方便,語音交互則突破了年齡障礙。甚至,有人曾經預測,語音交互可能會成為繼搜索引擎、瀏覽器、智能手機OS之后,第四代的入口。
同時,依托云技術以及大數據的發展,智能語音技術的迭代和優化速度也在加快。智能機器人、智能車載、智能家電等領域的多款產品都可以依托這一技術。