




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
基于BP神經網絡語音識別技術匯報人:基于BP神經網絡的語音識別技術專家講座第1頁目錄一.語音識別概述二.語音識別流程三.語音信號預處理四.語音識別特征提取五.BP神經網絡原理六.語音識別程序設計基于BP神經網絡的語音識別技術專家講座第2頁一.語音識別概述
語音識別以語音為研究對象,包括到生理學、心理學、語言學、計算機科學,以及信號處理等很多領域,最終目標是實現人與機器進行自然語言通信,用語言操縱計算機。基于BP神經網絡的語音識別技術專家講座第3頁
語音識別系統能夠分為孤立字(詞)語音識別系統、連接字語音識別系統以及連續語音識別系統。語音識別系統分為兩個方向:一是依據對說話人依賴程度能夠分為特定人和非特定人語音識別系統;二是依據詞匯量大小,能夠分為小詞匯量、中等詞匯量、大詞匯量,以及無限詞匯量語音識別系統。基于BP神經網絡的語音識別技術專家講座第4頁二.語音識別流程從圖系統整體架構能夠看到,建立基于BP神經網絡語音識別系統可分為兩個階段,即訓練階段和識別階段。首先由用戶經過麥克風輸入語音形成原始語音,然后系統對其進行預處理。預處理包含預加重,加窗分幀和端點檢測三個過程。系統前端采取了端點檢測,目標是在一段語音信號中確定起點和終點。在特征提取部分,本系統采取了MFCC作為特征參數,用于有效地域分數字1-5.基于BP神經網絡的語音識別技術專家講座第5頁三.語音信號預處理1.預加重語音從嘴唇輻射會有6dB/oct衰減,所以在對語音信號進行處理之前,希望能按6dB/oct百分比對信號加以提升(或加重),以使得輸出信號電平相近似。可采取以下差分方程定義數字濾波器:式中,系數常在0.9至1之間選取。基于BP神經網絡的語音識別技術專家講座第6頁2.語音信號分幀語音信號是一個經典非平穩信號,它均值函數u(x)和自相關函數R(xl,x2)都隨時間而發生較大改變。但研究發覺,語音信號在短時間內頻譜特征保持平穩,即含有短時平穩特征。所以,在實際處理時能夠將語音信號分成很小時間段(約10~30ms),稱之為“幀”。在語音信號數字處理中慣用窗函數是矩形窗、漢明窗等,它們表示式以下(其中N為幀長):矩形窗:漢明窗:基于BP神經網絡的語音識別技術專家講座第7頁3.端點檢測基于短時能量和短時過零率雙門限檢測法在該算法中,短時能量檢測能夠很好地域分出濁音和靜音。對于清音,因為其能量較小,在短時能量檢測中會因為低于能量門限而被誤判為靜音,短時過零率則能夠從語音中區分出靜音和清音。將兩種檢測結合起來,就能夠檢測出語音段及靜音段。基于BP神經網絡的語音識別技術專家講座第8頁下列圖是我本科課程設計中一個關于端點檢測程序GUI界面,其中語音是教材中示例語音“他去無錫市”,我經過cooledit在示例語音中加入了白噪音,能夠看出清音段混雜在噪音中,假如短時能量門限值選取過高可能會屏蔽掉清音段,所以加入過零率能更加好識別出清音段。基于BP神經網絡的語音識別技術專家講座第9頁由此圖能夠看出門限值選取合不合理很大程度上影響到端點識別效果基于BP神經網絡的語音識別技術專家講座第10頁四.語音識別特征提取特征提取:即對不一樣語音尋找其內在特征,由此來判別出未知語音,所以每個語音識別系統都必須進行特征提取。語音信號特征主要有時域和頻域兩種。
時域特征:短時平均能量、短時平均過零率、共振峰、基音周期等;
頻域特征:線性預測系數(LPC)、LP倒譜系數(LPCC)、
Mel頻率倒譜系數(MFCC)等。
本試驗選取MEL頻率倒譜系數(MFCC)進行提取特征參數。
經過閱讀文件了解到基于DTW算法和MFCC就已經能夠做到語音識別了,不過泛化性比較差,中間測試過一個相關程序只能識別特定語音片段,更換說話人后識別效果很差。基于BP神經網絡的語音識別技術專家講座第11頁五.BP神經網絡原理BP神經網絡又稱誤差反向傳遞神經網絡。提取了語音特征參數后,靠神經網絡中大量連接權對輸入模式進行非線性運算,產生最大興奮輸入點就代表了輸入模式對應分類。神經網絡連接權系數是在使用中依據識別結果正確是否不停進行自適應修正。單隱層網絡整個體系結構如圖所表示,分為輸入層、隱藏層和輸出層,其中隱藏層依據詳細情況需要,能夠是一層結構也可為多層結構。基于BP神經網絡的語音識別技術專家講座第12頁六.語音識別程序設計數字語音識別試驗目標:識別135三個數字(選擇135是因為135三個數字識別率最高)訓練樣本:每個數字選取5個樣本進行訓練(均為同一個人樣本)測試樣本:每個數字選取3個樣本進行識別測試(均為同一個人樣本)T1=[100]‘%代表1T3=[010]‘%代表3T5=[001]‘%代表5基于BP神經網絡的語音識別技術專家講座第13頁文件內容備注./pic該文件夾中保留有試驗效果分析結果圖片./S該文件夾中為全部訓練樣本夾內各個文件夾名字代表其內音頻內容,比如名字為1文件夾中全部音頻內容均為1發音./T該文件夾中為全部測試樣本夾內格式同上./enframe.m該函數將輸入向量分為固定長度固定重合量幀Matlab語音工具箱組件./melbankm該函數為Mel濾波器Matlab語音工具箱組件./mfcc.m該函數求出輸入數據mfcc系數12維mfcc系數./MfccProcess.m將多組mfcc系數取平均對mfcc系數預處理./SampleCreate.m將取全部音頻mfcc系數處理成神經網絡函數所需輸入格式./Main.c主程序函數,在這里設置參數,控制運行下表格為所用到matlab程序及其功效:基于BP神經網絡的語音識別技術專家講座第14頁netBP=newff(PR,[30,10,3],{'tansig','tansig','tansig'},'trainbfg');%使用TRAINSIG,即共軛梯度法,其好處是當訓練不收斂時,它會自動停頓訓練,而且耗時較其它算法(TRAINLM,TRAINGD)少,也就是收斂很快netBP.trainParam.epochs=100;%設置訓練步數
[nettr]=train(netBP,PS,T);%網絡訓練
神經網絡訓練:Y=sim(net,Test)%輸入測試語音參數進行識別神經網絡測試:神經網絡相關部分程序:基
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 木材的抗壓和抗撞擊性能考核試卷
- 綠化工程苗木采購管理考核試卷
- 2025年中考數學沖刺滿分計劃壓軸集訓測試四含答案
- 紡織鞋材的耐磨擦性能改善考核試卷
- 美容儀器技術創新與產業發展考核試卷
- 影視廣告音樂制作保密及版權共享合同
- 礦產勘探樣品儲存與信息安全管理租賃協議
- 私募基金存管安全風險管理協議
- 基因編輯細胞治療項目合作合同
- 網絡直播帶貨供應鏈金融服務協議
- 【2025二輪復習】讀后續寫專題
- 商品房門窗加工合同協議
- 四年級下冊數學口算練習題
- (四調)武漢市2025屆高中畢業生四月調研考試 物理試卷(含答案)
- 數學建模與系統仿真智慧樹知到期末考試答案2024年
- 煙草原料學-煙草的品質課件
- 非法行醫和非法采供血信息報告課件
- DG-TJ 08-2362-2021 綜合桿設施技術標準
- 計算機集成制造技術(CIMT)(PPT 53)第三講柔性制造系統(FMS)
- TSG11-2020 鍋爐安全技術規程
- 天津科技大學工程碩士學位論文答辯評議書及表決票
評論
0/150
提交評論