語音評分SpeechEvaluation_第1頁
語音評分SpeechEvaluation_第2頁
語音評分SpeechEvaluation_第3頁
語音評分SpeechEvaluation_第4頁
語音評分SpeechEvaluation_第5頁
已閱讀5頁,還剩45頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、1學生:李俊毅指導教授:張智星2002/6/11清大多媒體資訊檢索實驗室李俊毅 O.tw2利用標準語音資料的評分英文語音評分系統Demo利用HMM及音高資料的評分唐詩語音評分系統Demo結論未來展望清大多媒體資訊檢索實驗室李俊毅 O.tw3利用標準語音資料的評分利用HMM及音高資料的評分清大多媒體資訊檢索實驗室李俊毅 O.tw4標準語音測試語音I can line up an interview with Tom Cruise.我可以安排一場湯姆克魯斯的專訪清大多媒體資訊檢索

2、實驗室李俊毅 O.tw5測試語音夕陽無限好聲音siiaGusieNhau聲調清大多媒體資訊檢索實驗室李俊毅 O.tw6Part 1 利用標準語音資料的評分清大多媒體資訊檢索實驗室李俊毅 O.tw7系統流程圖特徵擷取特徵參數圖樣比對PatternMatching標準語音特徵擷取特徵參數1.音量強度曲線2.基頻軌跡曲線3.梅爾倒頻譜參數1.音量強度曲線2.基頻軌跡曲線3.梅爾倒頻譜參數測試語音特徵參數正規化特徵參數正規化評分機制相似程度評分清大多媒體資訊檢索實驗室李俊毅 Owen

3、.tw8特徵擷取特徵擷取特徵參數圖樣比對PatternMatching標準語音特徵擷取特徵參數1.音量強度曲線2.基頻軌跡曲線3.梅爾倒頻譜參數1.音量強度曲線2.基頻軌跡曲線3.梅爾倒頻譜參數測試語音特徵參數正規化特徵參數正規化評分機制相似程度評分清大多媒體資訊檢索實驗室李俊毅 O.tw9評分所採用的特徵音量強度曲線 (Magnitude)基頻軌跡 (Pitch Contour)梅爾倒頻譜參數 (Mel-Frequency Cepstral Coefficients) 清大多媒體資訊檢索實驗室李俊毅 Owenwayne

4、..tw10清大多媒體資訊檢索實驗室李俊毅 O.tw11代表音量強弱變化趨勢求取公式:1,.,1 , 0,)(1)(10NnmSMnaveMagMmn清大多媒體資訊檢索實驗室李俊毅 O.tw12清大多媒體資訊檢索實驗室李俊毅 O.tw13代表音高變化趨勢擷取流程語音訊號低通濾波器音框化找Local MinimaAMDF演算High Cliping每一音框皆經以下步驟計算基頻清大多媒體資訊檢索實驗室李俊毅 O.tw1

5、4代表聲音的內容擷取流程語音訊號預強調音框化傅利葉轉換餘弦轉換MFCC漢明窗三角帶通濾波器每一音框皆經以下步驟清大多媒體資訊檢索實驗室李俊毅 O.tw15Vocal Tract Length Normalization原理利用第三共振峰(F3)頻率較不易變動的特性,藉以調整測試語音的線性頻率尺度正規化係數 定義為參考語音平均參考語音平均F3值除以測試語音平均值除以測試語音平均F3值值有了正規化係數之後就可以用下式來調整測試語音的頻率尺度: FFN清大多媒體資訊檢索實驗室李俊毅 O.tw16代表聲音的內容擷取流程語音

6、訊號預強調音框化傅利葉轉換餘弦轉換MFCC漢明窗三角帶通濾波器每一音框皆經以下步驟清大多媒體資訊檢索實驗室李俊毅 O.tw17特徵參數正規化特徵擷取特徵參數圖樣比對PatternMatching標準語音特徵擷取特徵參數1.音量強度曲線2.基頻軌跡曲線3.梅爾倒頻譜參數1.音量強度曲線2.基頻軌跡曲線3.梅爾倒頻譜參數測試語音特徵參數正規化特徵參數正規化評分機制相似程度評分清大多媒體資訊檢索實驗室李俊毅 O.tw18解決特徵參數長短不一的方法Interpolation解決麥克風差異的方法Linear Scaling解

7、決個人音高差異的方法Linear Shifting解決通道效應的方法Cepstral Mean Subtraction清大多媒體資訊檢索實驗室李俊毅 O.tw19一維內差法,將特徵參數的長度調成一樣清大多媒體資訊檢索實驗室李俊毅 O.tw20Linear Scaling假設不同麥克風對音量強度的影響存在一個倍數的關係 使用Least-squares estimator我們可以得知 =) 1(.) 1 ()0()(2222NaveMagaveMagaveMagnaveMagA) 1(.) 1 ()0()(1111Na

8、veMagaveMagaveMagnaveMagyyeAyAAATT1)(清大多媒體資訊檢索實驗室李俊毅 O.tw21Linear Shifting將兩段基頻軌跡的平均值調成一樣公式:10110222)(1)(1)()(NkNkkfNkfNxfxf清大多媒體資訊檢索實驗室李俊毅 O.tw22Cepstral Mean Subtraction通道效應補償公式:TtccctyTbbtytx1)(1)()(1234512123Nb1b2清大多媒體資訊檢索實驗室李俊毅 O.tw23圖

9、樣比對設計特徵擷取特徵參數圖樣比對PatternMatching標準語音特徵擷取特徵參數1.音量強度曲線2.基頻軌跡曲線3.梅爾倒頻譜參數1.音量強度曲線2.基頻軌跡曲線3.梅爾倒頻譜參數測試語音特徵參數正規化特徵參數正規化評分機制相似程度評分清大多媒體資訊檢索實驗室李俊毅 O.tw24音量強度曲線比對流程圖v2new_v2距離(dist1)標準語音之音量強度曲線設為v1測試語音之音量強度曲線設為v2A.Interpolation成v1的長度B.以v1為準做Linear Scaling以v1為基準調整v2v1算距離差異程度清大多媒體資訊檢索實驗室李俊毅

10、O.tw25基頻軌跡比對流程圖 v2new_v2距離(dist2)標準語音之基頻軌跡設為v1測試語音之基頻軌跡設為v2A.Interpolation成v1的長度B.以v1為準做Linear Shifting以v1為基準調整v2v1算距離差異程度清大多媒體資訊檢索實驗室李俊毅 O.tw26梅爾倒頻譜參數比對流程圖 v2new_v2標準語音之梅爾倒頻譜參數設為v1測試語音之梅爾倒頻譜參數設為v2Cepstral Mean Subtraction算距離v1new_v1Cepstral Mean SubtractionDy

11、namic Time Warping距離(dist3)差異程度清大多媒體資訊檢索實驗室李俊毅 O.tw27提供一個具有更大彈性的相似度比對法)()()2, 1() 1, 2() 1, 1(min),(jRiTjidjidjidjid測試語音特徵向量T標準語音特徵向量Rd(i1, j2)d(i1, j1)d(i, j)d(i2, j1)清大多媒體資訊檢索實驗室李俊毅 O.tw28清大多媒體資訊檢索實驗室李俊毅 O.tw29評分機制特徵擷取特徵參數圖樣比對PatternMatch

12、ing標準語音特徵擷取特徵參數1.音量強度曲線2.基頻軌跡曲線3.梅爾倒頻譜參數1.音量強度曲線2.基頻軌跡曲線3.梅爾倒頻譜參數測試語音特徵參數正規化特徵參數正規化評分機制相似程度評分清大多媒體資訊檢索實驗室李俊毅 O.tw300,)(1100badistascoreb66070809033.544.555.566.577.58050100清大多媒體資訊檢索實驗室李俊毅 O.tw31距離轉分數公式 音量強度曲線的距離 基頻軌跡的距離 MFCC的距離321)(

13、1100)(1100)(1100333222111bbbdistawdistawdistawscore1dist2dist3dist1, 0,321321321wwwbbbaaa清大多媒體資訊檢索實驗室李俊毅 O.tw32實驗標準語音 CNN互動英語10句測試語音 實驗室同學錄音,總共320句清大多媒體資訊檢索實驗室李俊毅 O.tw33 正確 錯誤 使用Simplex downhill search可找出不錯的 組合 經由實驗得到9090.90903 ,3202,3201 ,3203 , 22, 21 , 23 ,

14、 12, 11 , 1distdistdistdistdistdistdistdistdist3030.30303 ,3202,3201 ,3203 , 22, 21 , 23 , 12, 11 , 1distdistdistdistdistdistdistdistdist321321321,wwwbbbaaa%8 .74%,7 .16%,5 . 8321www清大多媒體資訊檢索實驗室李俊毅 O.tw34英文語音評分系統Demo清大多媒體資訊檢索實驗室李俊毅 O.tw35Part 2 利用HMM及音高資料的評分清大

15、多媒體資訊檢索實驗室李俊毅 O.tw36系統流程圖特徵擷取特徵參數語音訊號的切割39維的梅爾倒頻譜參數語音訊號單音節Viterbi Decoding每一音節皆經以下步驟語音辨識音節排名聲調辨識聲調排名評分評分機制清大多媒體資訊檢索實驗室李俊毅 O.tw37評分所採用的特徵聲音(HMM) 梅爾倒頻譜參數(MFCC)聲調(音高) Orthogonal Expansion的4個係數 Chebyshev Polynomial Fitting的6個係數清大多媒體資訊檢索實驗室李俊毅 O

16、.tw38Viterbi Decoding在已知語音訊號內容的情況下,解出最佳的語音訊號狀態序列Net 為這句語音訊號內容的所有可能音節排列 例如:黃河入海流 Path 1: !NULL-黃-河-入-海-流-!NULL Path 2: !NULL-黃-河-入-海-!NULL Path 3: !NULL-黃-河-入-!NULL Path 4: !NULL-入-海-流-!NULL .清大多媒體資訊檢索實驗室李俊毅 O.tw39向晚意不適Viterbi Decoding -清大多媒體資訊檢索實驗室李俊毅 O.tw40HM

17、M的評分方式建立415個單音節的Net !NULL-huaG-!NULL !NULL-hr-!NULL !NULL-Ru-!NULL 對每個Net作Viterbi Search,找出每個Net的最大Log Probability對Log Probability排序清大多媒體資訊檢索實驗室李俊毅 O.tw411.Log Probability越大,代表2.分佈斜率,代表415個音節清大多媒體資訊檢索實驗室李俊毅 O.tw42前10名個音節清大多媒體資訊檢索實驗室李俊毅 O.tw

18、43排名在201名之後者,評為20分第1名到第200名依比率評分,區間為100,20前200名的音節清大多媒體資訊檢索實驗室李俊毅 O.tw44排名在201名之後者,評為20分第1名到第200名依比率評分,區間為100,20前200名的音節清大多媒體資訊檢索實驗室李俊毅 O.tw45示意圖向晚意不適Viterbi Decoding -正確答案siaGuaNibuSyRecognizer -評分機制9592869072清大多媒體資訊檢索實驗室李俊毅 O.tw46音高資料的評分方式對每個字求取Pitch Contour將Pitch Contour轉成特徵向量比對Tone Models,判斷這個字是第幾聲的以字為評分依據 Ex.月落烏啼霜滿天正確:4 4 1 2 1 3 1結果:4 1 1 2 1 3 1 清大多媒體資訊檢索實驗室李俊毅 O.tw47示意圖向晚意不適Viterbi Decoding -正確答案Tone Recognizer -辨識結果清大多媒體

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論