語音信號數字處理:13 語音識別 簡化_第1頁
語音信號數字處理:13 語音識別 簡化_第2頁
語音信號數字處理:13 語音識別 簡化_第3頁
語音信號數字處理:13 語音識別 簡化_第4頁
語音信號數字處理:13 語音識別 簡化_第5頁
已閱讀5頁,還剩16頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、1Speech signal processing語音識別123語音識別基本概念語音識別的應用語音識別的方法2Speech signal processing語音識別(speech recognition)語音識別(Speech Recognition):機器通過識別和理解過程把人類的語音信號轉變為相應的文本或命令的技術。根本目的是研究出一種具有聽覺功能的機器,能直接接受人的語音,理解人的意圖,并做出相應的反映。從技術上看,它屬于多維模式識別和智能接口的范疇。3語音識別與合成作為一個獨立的研究領域已經有近五六十年歷史。語音識別作為一個跨學科的技術,是在人們幾個世紀以來對語言學、聲學、生理學及自

2、動機理論研究的基礎上發展而來的。但這些理論實現起來仍然面臨著以下困難:不同的說話者有不同的說話方式;在含噪音環境中引入的噪聲在很大程度上干擾了原始語音信號;連續語音中音素、音節或單詞之間的調音結合引起的音變使基元模型之間的邊界不明確;語法語義規則的建立與理解很難;語音信息的變化很大,不同人不同,同一個人也不同;語音的模糊性;單個字母及單個詞發音時的語音特性受上下文環境的影響,音量、音調、重音、音速等都可不同;環境噪聲和干擾對語音識別有嚴重影響;語音識別(speech recognition)4Speech signal processing語音識別分類按詞匯表(Vocabulary)的大小分

3、小詞匯表系統:包括10100個詞條 中詞匯表系統:包括1001000個詞條 大詞匯表系統:至少包含1000個以上的詞條按照發音方式分 孤立詞(Isolated Word )識別 連接詞(Connected Word)識別 連續語音(Continuous Speech)識別 語音理解(在識別的基礎上用語言學知識推斷語音含義)、 會話語音識別(書寫語音識別) 5Speech signal processing語音識別分類按說話人的限定范圍分 特定人(Speaker Dependent,SD)識別 非特定人(Speaker-Independent ,SI)識別 按照識別方法分 模板匹配方法:DTW

4、概率模型方法:HMM、 ANN 、SVM6語音識別的發展現狀從理論到產品走過了50多個春秋;現有很多實際應用系統;有可能成為下一代操作系統和應用程序的用戶界面;遠沒有達到計算機與人類自然交流的終極目標;實用的語音識別技術研究極具市場價值和挑戰;重點:大詞匯、非特定人、連續語音識別。7漢語語音識別與其他語言沒有本質區別;漢語的特點使其識別難度更大。交叉學科:計算機、通信、語音語言學、數理統計、信號處理、神經生理心理、人工智能等8語音打字機(聽寫機,鍵盤輸入的34倍);電話查詢自動應答系統(語音界面);語音命令的控制系統(釋放手腳);信息查詢(股票、天氣、航班)人機界面(新一代操作系統、智能家居)

5、聽寫機(文字輸入、記錄)數據庫管理(語音檢索)說話人識別(安全應用)關鍵詞檢出(多媒體數據檢索)語音識別應用人機交互:9語音識別方法:模版匹配法特定人、小詞匯、孤立人識別系統Dynamic Time Warping隨機模型法主流,HMM語音:從一個相對穩定的狀態過渡到另一個狀態概率語法分析法區別性特征(語法、語義、語用)規則知識基于ANN的方法、基于模糊數學的方法、句法語音識別等10語音識別典型系統IBM ViaVoice 聽寫機AT&T VRCP系統(自助話務員協助呼叫)NTT ANSER 語音識別銀行服務系統SONY AIBO 機器狗11語音識別的性能評價原句:我 們 明 天 去 天 安

6、門識別:我 明后天 去 天 壇 刪除錯誤 Deletion 插入錯誤 Insertion 替換錯誤 Substitution正確率: 準確率: 12語音識別技術面臨的問題數據資源 (年齡、性別、語言、方言、主題、情緒、地域切分、標注體系)抗噪性能(背景噪聲、信道噪聲、干擾)協同發音(Co-articulation)口語現象(重復、頓措、語序顛倒)說話人變異(口音、情緒、年齡)聽覺機理(音量、頻率、抗噪、區分)13語音識別層次模型14統一層次模型系統設計15語音識別原理模式匹配原理:未知語音模式與已知語音模式逐一比較,最佳匹配的參考模式作為識別結果。識別步驟:學習訓練分析語音特征參數,建立模板庫

7、;識別測試按照一定的測度和準則與系統模型進行比較,通過判決得出結果;語音識別本質就是模式識別16語音識別系統基本構成17預處理反混疊濾波;模/數轉換;自動增益控制;去除聲門激勵和口腔輻射;正確選擇識別單元;18特征提取從波形信號獲取一組描述語音信號特征的參數;參數的好壞對識別精度影響很大;識別參數:平均能量、過零率、頻譜、共振峰、倒譜、線性預測系數、HMM的概率函數、矢量量化的矢量可以一種或多種參數并用;需要考慮參數的穩定性、識別率、計算量等;對于漢語還存在聲調的提取(超音段信息);19距離測度歐氏距離及其變形;對數似然比失真測度;加權超音段信息識別測度;HMM之間的距離測度;主觀感知距離測度;20參考模式庫聲學參數模板(訓練

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論