




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、智能效勞機器人語音交互的設計與實現摘要隨著科技的不斷開展,在營業場所中智能效勞機器人漸漸走進我們的生活。同時智能效勞機器人的出現給我們的生活也帶來了諸多便利。本文分析了智能效勞機器人語音交互控制的應用需求,基于微軟語音應用程序接口設計開發了一套人機語音交互控制系統。詳細闡述了系統的設計思想及關鍵步驟,重點包括語音識別、語音合成、語法規那么創立為維護等方面的內容,并就如何進一步提高識別率進行了研究。關鍵詞智能效勞機器人;人機交互;語音識別;語音應用程序接口中圖分類號:TP242 文獻標識碼:ADOI:10.19694/j ki.issn2095-24
2、57.2021.09.0520引言使用機器人進行效勞,不但會讓營業場所添色,更能夠表達現代化、科技感。目前,智能效勞機器人可以實現集自主引導、互動交流等功能為一體的一系列“類人活動,智能效勞機器人的出現,不僅節省了人力和時間本錢,還展現了當下智能時代感1-2。智能效勞機器人采用最前沿的技術與智能設備、人機交互等相互應用,可提供更快更準的個性化效勞,也為營業場所帶來了全新的智能體驗【3】。目前,由于技術的逐步開展和多地推廣應用。現場應用對機器人的控制方式提出了新的要求,希望能夠以語音命令控制機器人,并且實現與機器人的交互對話。著眼于智能效勞機器人語音交互控制的功能需求,本文以語音識別和語音合成的
3、應用開發為手段,實現了可靠快捷的機器人語音控制與交互會話。1功能概述與性能指標對機器人的交互控制是讓機器人識別接收到的有效對話和語音操作指令,根據識別結果做出應答或完成指定操作4-5。利用語音識別技術正確識別操作人員發出的語音指令,再根據識別結果判斷語音指令的類型。語音指令有兩種類型,一種是控制指令,即讓機器人完成指定的操作,如“開始充電、“停止充電、“開啟超聲等進而根據識別結果做出應答或執行指定的操作;正確識別到控制指令需要控制機器人完成對應操作。另外一種指令是應答指令,如“你叫什么名字、“你會做什么等,識別到這類指令后機器人需要根據事先設定好的內容應答。為適應現場應用需求,語音交互控制系統
4、應滿足以下性能指標:1喚醒詞的喚醒率>95%;2近場通用場景識別率>98%;3遠場通用場景識別率>95%;4識別結果響應時間低于200ms。2流程設計分析機器人語音交互控制的功能需求,為實現該系統可將其分解為語音采集、語音識別、對話應答和執行操作等四個模塊。2.1語音采集利用聲音傳感器采集交互語音信號,提供給后續環節的進行分析處理。2.2語音識別通過對采集到的語音信號進行分析處理、提取特征進行比對識別出語音內容,然后據此判定是否是合法指令及指令類型,進而控制機器人做出相應的響應。2.3對話應答識別出合法的應答指令,在應答列表中搜索相應的應答內容,然后使機器人說出應答內容以實現
5、人機對話。2.4執行操作通過語音識別確定合法的操作指令,向機器人發送指令完成相應的操作。在上述諸環節中,語音信號采集技術成熟、結構簡單,完成語音傳感器話筒、采集卡聲卡的物理連接,開發語音采集配套程序即可進行語音采集。語音識別是整個系統中的核心局部,對話應答和執行操作都依賴語音識別的結果。對話應答要求機器人具備說話能力,通過語音合成技術將應答內容轉換為會話語音。執行操作局部是向機器人發布控制命令,可直接利用機器人已有的指令控制方式。語言交互控制的處理流程如圖2所示。3語音交互詳細設計由前述分析可知,實現機器人語音交互控制的關鍵是語音識別和用于對話應答的語音合成。結合系統需求和語音技術開展狀況,采
6、用基于現有語音開發包的方式實現了整個語音交互控制系統。3.1選擇開發方式語音識別技術就是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的高技術,技術內容主要包括特征提取技術、模式匹配準那么及模型訓練技術三個方面【6】。客觀地講,盡管有一些公司提供了某些語音識別的商業應用,但真正高效可靠的語音識別技術仍然是一個技術難點,相對而言抗干擾性差、對語音輸入要求高【7】。目前常用的語音開發工具有微軟公司的SAPI語言引擎和國內科大訊飛提供的InterReco語音識別系統。對機器人語音交互這類命令式識別而言,兩者效果相當,因科大訊飛開發包本錢高而采用微軟的SAPI進行語音識別開發。SAPISpe
7、echApplicationProgrammingInterface是微軟語音開發包MicrosoftSpeechSDK提供的關于語音Speech處理的一套應用程序編程接口,包含了實現文字-語音識別SpeechRecognition和語音合成Text-to-Speech程序的根本函數,大大簡化了語音編程的難度,降低了語音編程的工作量8。以下圖所示是微軟SAPI的開發架構,語音引擎通過設備驅動接口DDI層SAPI運行庫通信,應用程序那么通過應用程序接口API層和SAPI交互。通過使用這些API進行語音識別和語音合成方面的開發。3.2語音識別的詳細開發3.2.1SAPI工作模式用SAPI構建語音識
8、別系統可以采用兩種識別模式:語音命令控制模式和語音聽寫模式9。采用語音命令控制模式構建的語音識別系統,適合小詞匯量、孤立詞、非特定人的語音識別,但是需要創立語法規那么,識別范圍只能局限于語法規那么內所設計的短語或字詞,適應性差但限定內容識別率高。語音聽寫模式構建的語音識別系統適合于大詞匯、連續語音的識別,同時無須構建復雜的語法規那么,語音識別的適應性強,但識別率相對要低一些。機器人語音交互控制的指令是有限且相對固定的,因此采用識別率更高的命令控制識別模式。按照SAPI的開發流程,完成語音識別的根本配置和識別引擎初始化即可進行語音識別。3.2.2語法規那么的創立與維護語音命令識別模式的關鍵問題是
9、語音規那么,是對能夠識別的命令庫的標準化描述。SAPI的語法規那么采用XMLeXtensibleMarkupLanguage,可擴展標記語言格式。在進行識別工作之前需要編寫一個語法規那么文件,其中定義了需要識別的字和短語,SDK語音識別引擎加載該語法規那么來識別用戶的語音。在XML中每個實體或元素是由開始標記和結束標記所組成,在其中間夾的語句就是該實體或元素包含的文法內容。文法的內容可以是普通文字,或者是文法元素的子元素。XML標準中對于合法的文法內容的正式定義是采用多集合表達式的形式。利用這些定義,就可以精確定義文件的語法和文法中的規那么。在文法中,和中插入的是一組待識別的字或短語,而中插入
10、的是以為可選擇項的可能匹配用戶語音的字或短語。圖4所示是機器人語音交互控制采用的局部語法規那么。其中GRAMMARLANGID="804",指明了識別對象是中文漢字,在識別過程中將調用漢語聲學模型;位于和之間的是諸條識別命令。XML語法文件可根據識別命令手工編輯,當識別命令發生變化時需要同步更新并加載XML文件,語音識別引擎才能識別新的指令。因此手工編輯方式不便于更新語法,在開發過程中根據XML規那么實現了語法文件的程序化更新,采用MSXML2:IXMLDOMdocumentPtr和MSXML2:IXMLDOMElementPtr對XML文件進行編輯。3.3語音合成語音合成
11、又稱文語轉換,能將任意文字信息實時轉化為標準流暢的語音朗讀出來10。通過計算機語音合成可以在任何時候將任意文本轉換成具有高自然度的語音,從而真正實現讓機器“像人一樣開口說話。這正是機器人語音交互應答的需求。采用微軟SAPI實現語音合成的步驟與語音識別大致類似,同樣包含根本設置音量和語速和引擎初始化。其中的一個關鍵問題是選擇發音庫,即讓機器人以什么樣的腔調說話。微軟SAPI包含了中英文的發音庫,但在SAPI5.4及以下版本里中文發音類型少且效果較差;可通過安裝第三方的語音庫增強語音合成效果,如Neospeech語音庫。4提高識別率的方法按照上述流程完成了機器人語音交互控制系統的開發,經現場測試正
12、確識別率超過90%。要進一步提高語音識別率,可參加語音預處理及用戶訓練。特別地,本文在語法規那么設計上進行了實驗研究。采用圖4所示的語法形式,在語音識別時對每條指令的判斷是采用整體比對,最終的識別結果是與上述列表中最為接近的選項。實驗證明此種形式的語法規那么下正確識別率較高,但是虛警率偏高,即可能將某些干擾音輕易地識別為某條指令,特別是一些短的指令,如“翻開等。分析產生這種問題的原因,應該是某些干擾中含有與這些短指令類似的語音成分。為了保證識別率,這種整體指令形式的語法規那么下的比對并不是非常嚴格的比對,因為識別系統要容忍一定程度的輸入偏差,如將“山東讀成“三東也應能識別出來,畢竟用戶的發音可
13、能千差萬別的。因此,在上述語法規那么下一些短的指令往往被誤識。為改善這一問題,設計了更為嚴格的比對規那么,如圖5所示。在這種分段形式的語法規那么下實現了更為嚴格的匹配識別。實驗結果也驗證了這種分析,采用這種比對語法能顯著地降低誤識率。比照圖4、5所示兩種不同形式的識別語法,可以說各有所長,因此如何合理地設計語法規那么是改善語音識別效果的一個途徑。5結論為增強智能效勞機器人的語音交互功能,根據應用需求設計了完整的語音交互開發流程。在此根底上基于微軟語音應用程序接口SAPI,完成了一套人機語音交互控制系統。現場測試結果說明,系統的各項性能指標滿足設計要求。限于語音識別技術的開展水平,機器人的語音識
14、別能力與人相比還有很大差距,仍是下一步亟須解決的問題。參考文獻【1】李安琪,蘇偉,吳燕.效勞機器人技術的開展J.科教導刊-電子版下旬,2021,11:261-262.【2】李強,喬克,顏紅,江熙.基于人工智能技術的電力營業廳機器人設計J.智能城市,2021,424:10-11.【3】王博瑋,陸中成.基于云的餐廳效勞機器人系統設計J.自動化儀表,2021,408:65-69.【4】翁劍鵬,彭軍發,李金林,易向東.基于語音識別的人形機器人的設計與實現J.科技創新導報,2021,1618:138-139.【5】黎世銀,任瑾,任家毅.基于語音控制的自主尋跡與避障智能小車設計J.電子世界,20215:133-134.【6】吳麗麗.孤立詞語音識別算法的研究與系統仿真D.東北大學,2021
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年廣東省廣州越秀商業地產投資管理有限公司招聘筆試參考題庫含答案解析
- 2025年江蘇淮安市宏信國有資產投資管理有限公司招聘筆試參考題庫含答案解析
- 2025年上海華東建筑設計研究院有限公司招聘筆試參考題庫附帶答案詳解
- 藝術創作:表達與實踐-探索藝術的表現力與創作過程
- 廣告變革之路-互聯網廣告新趨勢探析
- 共同行動創造未來-氣候變化科普
- 幼兒園數學啟蒙之道-探索多元化的教學策略與方法
- 研發副總監競聘-引領基礎軟件開發的未來
- 法治家庭教育課件
- 2025年中國超市用軟包市場現狀分析及前景預測報告
- 2025年工程管理試題及答案
- 《電纜狀態監測》課件
- 神經鞘瘤MRI診斷要點及鑒別診斷課件
- 青梅綠茶測試題及答案
- T-CEPPEA 5002-2019 電力建設項目工程總承包管理規范
- 法治護航成長路-四年級法制教育專題
- 聯鎖系統設備調試施工作業指導書
- 熱網工程施工組織設計方案
- 鄉村振興智慧農業項目計劃書
- 電工技能培訓課件下載
- 2025年上半年黑龍江牡丹江市“市委書記進校園”活動暨“雪城優才”企事業單位人才招聘1324人重點基礎提升(共500題)附帶答案詳解
評論
0/150
提交評論