【《基于高斯混合模型的聲紋識別系統研究》14000字】_第1頁
【《基于高斯混合模型的聲紋識別系統研究》14000字】_第2頁
【《基于高斯混合模型的聲紋識別系統研究》14000字】_第3頁
【《基于高斯混合模型的聲紋識別系統研究》14000字】_第4頁
【《基于高斯混合模型的聲紋識別系統研究》14000字】_第5頁
已閱讀5頁,還剩28頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

基于高斯混合模型的聲紋識別系統研究隨著信息探究方面的科學技術的不斷進步,充滿信息的時代來臨,需要面對一個很重要的問題-信息安全。而不同的身份對應著不同的信息,身份確認成為信息安全的一個重要部分。在身份確認中,聲紋與指紋、面貌等身份特征信息相似,不同的人具有不同的特征并且具有唯一性。因此只要能夠不斷完善提取的特征值,就有足夠的信息來識別身份,故通過提取聲紋中的特征參數進行模型匹配的聲紋識別技術不斷發展,從而被國內外的學者廣泛研究關注。聲紋識別中涉及到了語音預處理、特征提取、模型訓練及匹配等關鍵技術。本文針對聲紋識別系統,主要研究了特征提取這部分的關鍵技術及算法。在聲紋識別的特征提取部分,為了對比研究不同參數對聲紋識別結果的影響,本文重點分析介紹了梅爾倒譜系數(MelMFCC)以及伽瑪通頻率倒譜系數(GFCC)的概念以及提取算法,其次,從身份人識別模型入手,為了保證聲紋識別結果的對比性,聲紋識別系統的模型訓練部分研究描述了高斯混合模型(GMM),并統一采用了高斯混合模型(GMM)進行語音的訓練識別,通過MATLAB程序仿真實現了聲紋識別。針對不同說話人進行訓練識別,并對不同情況下的聲紋識別情況進行對比,選擇更有效的參數提高系統的識別準確率和抗噪性能。實驗表明,在相同條件下的參數對比,GFCC的聲紋識別率更高,并且參數GFCC能夠有效提高系統的抗噪魯棒性。關鍵詞:聲紋識別、MFCC、GFCC、高斯混合模型 11.1研究背景及意義 11.1.1研究背景 11.1.2研究意義 11.2國內外研究現狀及應用前景 21.3編程語言選擇 31.4本文主要研究內容與結構安排 3 4 42.2聲紋識別系統的結構 6 63.1預加重 73.2分幀 83.3加窗 93.4端點檢測 4特征參數的提取 4.1特征參數選擇 4.2Mel倒譜系數(MFCC) 4.2.1Mel倒譜系數概念 4.2.2Mel倒譜系數的提取 4.3Gammatone頻率倒譜系數(GFCC) 4.3.1Gammatone頻率倒譜系數概念 4.3.2Gammatone頻率倒譜系數的提取 5特征參數在高斯混合模型的聲紋識別 5.2高斯混合模型 5.3基于高斯混合模型的聲紋識別 6基于MATLAB環境下的仿真實驗 6.1聲紋識別系統框架 6.2聲紋識別過程及結果 6.3參數對比 7.1結論 7.2展望 參考文獻 1.1研究背景及意義各業技術不斷更新迭代,人類在各方面都已經進入銀行證券、公安司法、軍隊國防等都離不開信息,并且經起研究人員的廣泛關注(黃志國,周慧敏,2016)。隨著信息科技領域的技術不斷發展與生物領域技術的不斷完善,兩者發成為現代身份人識別的關鍵技術。生物技術與光學、聲學技術手段密切相關,利用生物統計數據等使用者固有部、虹膜和行為特征,如筆跡、聲音和行走身份進行識別。語音作為人類的說話傳遞信息的方式,隱藏著特有的聲紋信息,鑒普遍性與便捷性,正因如此,語音身份識別的技術即聲紋識別隨即產生(鄭志聲紋識別從語音處理的技術角度考慮也屬于語音人鑒別和語音識別,兩者都是屬于語音處理有相通的理論基礎和技術作為支撐,在此大環境下音的內容,忽略了發聲者的個性特征(熊浩然,孟子涵,2017);而聲紋識別更注重的是說話人的身份鑒定,人類腦中的肢體上使得人與人之間產生了可以相互交流的語言。其中在的形狀大小的差異,導致了不同的人說相同的語言和文領域。在各方面技術不斷成熟的同時,語音識別技術也在識別系統更加成熟。聲紋識別作為一項生物識別技術格比較低廉,聲紋識別過程中的特征提取部分比較簡模型訓練以及匹配部分也較為簡單容易,便于開發,配合有效提高識別率(段志強,白宇航,2021)。聲紋識別作為現代幾大身份人識別的發展的重點為提升識別的方式,使其可靠性不斷端到端的方向發展,理論上的工作致力于不同特征參匹配來達到更高的識別率(韓天琪,孫曉瀾,2020)。主要研究的是人的耳朵的聽力以及辨別不同識別的可能。隨著算法函數以及各方面技術的不斷完識別的領域。在1962年,貝爾的實驗室研究基于語譜圖的人工說話人識別工作,并將語譜圖稱為聲紋(黃致遠,何瑞霖,2024)。[9]到這個領域,使得識別的效果越來越穩定。在化模型、動態時間規劃模型、隱馬爾可夫模型、高各種模型層出不窮(薛睿哲,尹啟航,2018)。從這些趨勢中明白以高斯混合模型為代表的模型以其模型建立具有強大的聲學特征而被背景模型(GMM-UBM)在原基礎驗證,本文暫不進行詳細闡述,時間因素是一個不可忽視究往往是一個漫長的旅程,尤其是在探索復雜問題或新成果,但要對所有結論進行全面且細致的驗證,還需要更反復實驗。這不僅有助于排除偶然因素的干擾,可信度和普遍適用性。此外,技術手段的發程。隨著科技的進步,新的研究工具和技術不斷涌現,為科學研究提供了更多可能性。模型的發展不斷推進說話人識別的識別率(段智鵬,黃依琳,2022)。1.3編程語言選擇MATLAB(matrixlaboratory)作為一個強大的編程環境模擬軟件,同時也數圖形繪畫、GUI界面設計、軟件開發等多種功能,并且MATLAB可以與多種編程語言進行交匯,實現MATLAB中的代碼、數據代入,做到互通效編程語言Python設計于90年代,可以提供高效的高級數據結構。在功能方面對比,Python在可視化方面更為美觀,Py兩者對比來看,雖然Python在做深度學習方面的MATLAB在信號處理上比較優越,這明顯地揭示了意圖本文的主題也是依據在特征參數提取相關方面,因此設計深度學習的要求較少MATLAB語言的基礎,故選擇MATLAB作為編本文首先從總體上研究了聲紋識別系統,對聲匹配進行解析,最后用MATLAB針對聲紋識別系統進行仿真,并通過對程序的第一章主要說明了該課題的背景與發展現狀以及紋識別領域在國內外的研究現狀以及應用前景,針對第二章主要說明聲紋識別系統的概念。介紹了什第三章研究了聲紋識別系統中預處理部分,并以第四章研究了特征提取技術,重點介紹了幾種特混合模型(GMM)模型,對GMM模型的算法實現進行了講解。設計了基于第六章將完成的聲紋識別系統程序進行呈現,完成了代碼的仿真調試,并針對不同參數對識別結果進行對比,選擇識別結果比較優異的參數。第七章總結與展望。這明顯地揭示了意圖結合仿真實驗的結果進行總結,并進一步探究了在此設計中的不足與可以進一步發展的空間,展望前景。2.1聲紋識別的基本概念聲紋,簡單來講就是人在說話時引起的語音,可以通過聲譜的一種儀器顯示,并且可以包含說話人本身的個性信息以及話語所要表達的信息,是一種生聲紋識別是一種根據說話人語音波形識別說話人身份的生物識別技術。相對比其他的身份人識別技術,聲紋識別可以通過手機等設備錄音進行識別,用戶不必和生物特征采集設備接觸,即可完成識別過程(尹景行,蒲婉寧,辨識確認閉集開集圖2.2說話人識別分類說話人識別即聲紋識別的應用可分為身份人辨識和身份人確認,身份辨識指的是從一個集合中選擇可以匹配的聲紋,在對象角度來分析是一對多的一個過程。集合分為開集和閉集,依這些表現可以推測得出閉集即為從一個語音數據庫文件中識別身份人,開集即為從線上的數據集中尋找身份人,身份識別的難度隨著識別數據庫的基數增加而增加,因此開集的識別難度往往要比閉集的識別難度要大的多(羅毅和、唐昱澤、陳昊忠,2021);身份確認是指根據一段語音確認是否為目標用戶,是1:1的過程,說話人確認即需要匹配說話人與數據庫的參數是否匹配即可識別,不會受到未識別語音數量以及說話人集合基數的影響(成雅茜,付東羽,2022)。為了確保研究數據的準確性,本文在誤差控制方面采取了一系列嚴格的措施。本文詳細規劃了研究步驟,并對可能產生誤差的各種因素進行了全面的考察和評估,包括環境變化、操作人員的技術差異以及測量工具的精度等。通過采用標準化的實驗操作和精確的技術手段,本文保證了數據的一致性和實驗的可重復性。為了進一步提升數據的準確性,本文還實施了數據雙錄和交叉核對的策略,有效防止了因人為錯誤或數據錄入失誤而引起的數據偏差。基于以上觀點因此相對來講說話人確認技術比說話人辨認技術更為穩定。針對說話人語音內容,也可以分為識別文本相關與識別文本無關兩個方面,文本相關概念為在聲紋識別過程中會對說話人的說話內容有要求;文本無關值得是在識別過程中只要考慮到說話人聲紋特征參數,因此文本相關對比文本無關更易識別。本文主要研究的是文本無關的說話人確認技術。2.2聲紋識別系統的結構如下圖所示,說話人識別系統的主要板塊有三個,第一個為預處理模塊,第二個為特征提取模塊,第三個為模型訓練與匹配模人的特征數據并儲存于系統中(許澤羽,楊雨萱,2021)。參照上述分析結果通過之前的導入得到的說話人聲紋特征,在識別階段再次導通過模型處理,與之前的聲紋特征進行匹配則就可以得到別技術過程主要包括語音預處理、特征提取、模型匹配三部分(韓志鵬,崔馨予,2020)。圖2.3聲紋識別框圖在進行特征提取前,都要對語音的原始序列做一系列消除人類發聲器官本身由于采集語音信號的設備帶來的混疊、高次諧波失高頻等等因素,對語音信號質量的影響(周慧敏,吳天瑜,2018)。在具體情境之中盡可能保證后續語音處理得到的信號更為平滑較好信號質量,更是為保證信號參數提取的參數能夠更加提高語音處理的質量。在數據分析方法的選擇上,本文不技術和算法。例如通過使用聚類分析來識別數據中的樹算法來預測未來趨勢。這些先進的方法為深入理解復調了混合方法的應用,即將定量研究與定性研究相結合,以獲得更加全面的研究視角。在預處理階段常用到的預處理過程如下圖:3.1預加重加語音在高頻部分的分辨率。高頻成分在約800Hz以上按照6dB/倍頻程衰減,頻率越小相對應的成分越小,在此大環境下為此要在語音高頻的部分加以提示。一般通過傳遞函數為H(z)=1-αz-1,高通數字濾波器來實現預加重,其中a為預加重系數,α的范圍一般會取到0.9至1.0131。3.2分幀傅里葉變換要求輸入較為平穩的信號,但語音信號從真題來講為不平穩信號,因此需要將信號變為在短時間內的平穩信號。此時就運用到了分幀的處理方式,將一段語音進行分斷操作,依據此理論框架進行全面分析可獲知結果每一段的時間長度為10ms到30ms,一小段為一幀,將處理的語音信號改為處理每一幀的平穩信號(孫文昊,趙思琪,2023)。相鄰的信號可能會出現信息量差距過大的情況,因此我們在分幀時候,采用相鄰的幀重疊的方法來減少信息差距,稱為交疊分幀法如下圖:圖3.4語音信號分幀圖M-幀移N-幀長據,對理論框架進行了嚴格的檢驗和調整。這些數象,還跨越了多個時間段和社會環境,為理論框架礎。利用統計分析方法對量化數據進行處理,能夠有效設,并揭示其潛在的缺陷。未來的研究將考慮增加更多圖3.5分幀處理3.3加窗通過分幀,語音信號就從非平穩信號變換為了短時的程中的頻率譜會出現泄漏的問題,所以在轉換前先做窗。對分幀后的每一段幀通過濾波器,對語音信號進行加強處理,在這般的框架下而對非語音信號做減弱處理,這樣就可以突出語音信號更容易進行識別。常用的函數有以下幾種,其分別定義為:(1)矩形窗(2)漢明窗)漢明窗的頻譜較為平滑。(3)漢寧窗)窗函數的種類多樣,選擇一個好的窗函數對語音的處理效果會有很大的好處,而窗函數選擇上需要滿足以下幾個條件:首先在頻域上,帶寬要足夠寬,而且頻域邊緣的最大值要比較小,從這些趨勢中明白其次要滿足時域上的窗函數X軸跨度要比較小,使得時間窗的變化是平滑的變化并不會產生突變(秦松柏,蔣莉,2021)。因此綜合幾種窗函數,結合時域與頻域來看,Hamming窗比較適合此語音處理過程。圖3.6加Hamming窗處理將上文分幀處理后的信號進行加窗處理。得到以上的加窗處理后的信號圖。3.4端點檢測語音經過以上的預加重、分幀加窗處理后即要進行說話人識別中的一個重要部分。端點檢測的信號的開端與結束部分,遵循此理論框架開展研究可處理時處理的都是有用信號,而去除那些無用的信號。點檢測可以大量減少數據的運行時間和運行的4特征參數的提取在語音信號中,包含有各式各樣的特征參數,不同的特征提取就是盡量去除或者削減語音信號中與識別無關識別階段需要處理的數據,這明顯地揭示了意圖生成提取不同的特征參數,從而保證識別率。在聲紋識別中的面將介紹MFCC和GFCC兩種特征參數的概段性的研究成果,本文可以為后續研究提供一定的上,本文能夠發現一系列可以優化和改進的了寶貴的經驗教訓,揭示了哪些方法是有效的,哪些例如,在數據收集方面,本文可以更加注重樣本的多樣性4.1特征參數選擇聲紋識別領域不斷在發展,也不斷在優化特征參1973年后LPC在原來的基礎上加以改進發展為線性預測倒譜系數(LPCC)從而提升了聲紋識別的準確度,依這些表現可以推測得出隨后在1980年研究者提出了Mel倒譜系數(Mel-FrequencyCepstralCoefficients,MFCC)并成功應用到了說話人識別領域,并取得了較好的效果,自此特征參數MFCC被廣泛應用在聲紋識別中。MFCC的應用將說話人識別的技術推向了高潮,并成為特本文主要研究的是聲紋識別系統的特征參數的特征參數過程中,選擇的特征參數應該具備差異性、相征,保證選擇的參數的提取過程和算法不同提取方法比過程中隨著說話人年齡的增長,基于以上觀點以及環參數識別過程以及最終聲紋識別參數進行對比,研究在特征參數改變的情況下對聲紋系統識別的結果有何影響。下面將逐次介紹Mel倒譜系數及Gammatone系數依據于人聽到聲音的原理而被設計的,系數仿照人的耳朵對在信號進行時域處理后,信號的前端處理部分即已經完成,下面Mel倒譜在原始語音信號經過上一章的預加重、分幀、加窗號。將時域的信號進行補零操作變為產生長度為N序列,再利用快速傅里葉變換將時域信號轉化為頻譜信號。接下來將頻譜信號通過Mel濾波器,這樣頻譜就轉化為了Mel頻譜,進行取對數操作后得到對數頻譜。將對數頻譜通過離散(1)快速傅里葉變換(FFT)但信號處于時域上時其特性很難被觀察出來,因此就要運用FFT,目的為了將時域信號轉換為頻域。對預處理后得到的每一小幀的語音都要做快速傅里葉變術的運用力度。隨著信息技術的迅猛發展,諸如大數據先進工具正逐漸成為科學研究中的重要組成更高效地處理海量數據,還能夠挖掘出傳統式。因此,在后續的研究中,本文應該積極其中X[n](n=0,1,2,….,N-1)為經過采樣后得到的(2)梅爾濾波器頻譜按人耳敏感程度分為多個Mel濾波器組,在Mel范圍刻度內,各個濾波器Mel(f)為Mel頻率,f為實際的頻率,單位為Hz。將能量譜通過一組Mel尺度的三角形濾波器組,定義有M個濾波器的濾波離會隨著濾波器個數增大而增大,從這些趨勢中明白隨著第14頁共19頁Mel濾波器的每個帶通濾波器的傳遞函數如下:(3)離散余弦變換通過FFT后我們將基帶信息與聲道信息變成了加性,下一步要分離我們就種變換,變換后在頻域中得到的也是實信號,遵循此理論框架開展研究可得出結論我們稱之為“倒譜域”,倒譜域的低頻部分包含了聲道信息,而高頻部分s(m)為濾波器組輸出對數能量;L為MFCC系數階數,通常為12-16;(4)動態差分參數提取MFCC只表述了一幀語音上的譜的包絡,但是由于語音信號中包含了一些MFCC在提取特征時使用的是三角波濾波器,而三角波濾波器對人耳朵的模型仿真效果較差。這明顯地揭示了意圖因此比較安靜的環境下MFCC的識別效果比較穩定,而當處于噪聲比較大,識別環境比較差的情況下MFCC特征的識別效果就會收到噪聲的影響出現識別率降低的結果,并且Mel頻率倒譜系數4.3Gammatone頻率倒譜系數(GFCC)特征參數的選擇不僅要觀察說話人識別的識別率性擾能力。眾多的學者在特征參數抗噪聲性能方基于各式濾波器的特征參數。依這些表現可以推測得出學者Johannesma在研究貓的聽覺神經時提出了Gammatone函數波形,因為其在聽覺方面取得的良好效Gammatone濾波器運用到了數字信號處理中的時域頻域轉換的方法。與MFCC特征參數對比,GFCC運用的Gammatone濾波器比MFCC所用濾波器的波峰會源。對這些資料的系統解析使本文得以確認研究猜想Gammatone濾波器可以針對一種特定的頻率進行語音的加強或者減弱,以此來得到與人耳朵擬合效果比較好的參數,起到對環境的降噪效果。GFC過程與Mel頻率倒譜系數的提取過程相似,下面將介紹GFCC的提取過程。4.3.2Gammatone頻率倒譜系數的提取在特征提取過程中特征參數GFCC與特征參數MFCC的區別主要為濾波器部分,Mel特征參數提取過程中使用的是Mel濾波器,參照上述分析結果而GFCC提取過程使用的是Gammatone濾波器。在Mel頻率倒譜系數提取過程中,我們介紹了FFT以及DCT步驟,下面將重點說明MFCC與GFCC特征參以下為GFCC特征提取的框圖,語音在經過預處理后進去GFCC的提取,首先經過快速傅里葉變換將時域信號轉換為頻域信號,下面通過Gamma濾波器,取對數處理后進如離散余弦變換處理,在具體情境之中最終得到在經過濾波器階段,Gammatone濾波器的時域表達式如下:gi(t)=Atn-1e-2πbitA為濾波器的增益;fi為濾波器的中心頻率;U(t)為階躍函器衰減因子6,衰減因子決定了濾波器對脈沖響應的速度,因此濾波器的帶寬也是由bi決定的。bi與中心頻率的關系如下:bi=1.019ERB(fi)ERB(fi)為等效矩形帶寬。等效矩形帶寬指的是等一個矩形來描述濾波器,矩形的高度與濾波器的高度最大值相同,在此大環境下其譜功率與所要求解的濾波器也相同。因此所需求的濾波器均可以用矩形來表述,而矩形的BPF擴大倍數就是所需求的功率譜的最大值。ERB(fi)計算如下圖4.5ERB等效矩形濾波器要歸結到模型的匹配,即測試的參數與庫中的模型參數進決定識別效果的好壞。下面將簡單介紹一下聲紋識別(1)矢量量化模型(VQ)(2)動態時間規劃模型(DTW)從算法上看DTW模型,就是將時間劃度和長度測量相結合,用動態的規(3)隱馬爾可夫模型(HMM)構圖,在語音識別、自然語言處理等領域有廣泛應用,HMM經常運用到數據可獲知結果具有廣泛的應用場景。當我們的問題為基于序列的例如時間序狀態序列等問題時,就可以運用HMM算法進行解決。本研究的階段性成果與計算結果,與前文綜述中的發現基本吻合,這首先有效性和可靠性。這種一致性不僅驗證了先前研究提供了進一步的支持。通過嚴謹的研究設計、數據收集及復現前人研究中的關鍵發現,并在此基礎上進行(4)高斯混合模型(GMM)數相乘求和(系數和為1)。高斯混合模型可以使用迭代的EM算法或者最大后驗概率法估計參數。高斯混合模型在生物統計系統中在這般的框架下求出與每個人相應的似然函數,似然函數(5)人工神經網絡(ANN)(6)支持向量機(SVM)應用,使很多問題迎刃而解。支持向量機以分類中,本設計選擇了GMM作為設計的聲紋識別系統模型。本文框架模型的一個樣性,本文在設計模型時特別注重各組件之間的模塊化模型可以根據一定的系數加權擬合為不同的概率密度分布函數,因此GMM被廣泛應用到聲紋識別、圖像處理等各種不同的領域中,5.3基于高斯混合模型的聲紋識別高斯混合模型即為多個高斯函數的混合,這明顯地揭如,2021)。6基于MATLAB環境下的仿真實驗本設計采用的是MATLAB軟件進行聲紋識別系統的設計,所設計的完整的說話人1模型說話人2模型說話人N模型特征提取特征提取模型匹配訓練階段識別階段6.2聲紋識別過程及結果在設計的聲紋識別系統中,所要設計的訓練模式與識別模式為從導入的語音數據庫中進行識別,主要的操作交互界面為所設計的GUI,設計GUI界面如下圖所示:聲紋識別聲紋識別注冊名稱:圖6.2GUI交互界面.在進行語音識別之前,我們首先準備的工作就是搜集語音數據庫,以便對語音進行訓練和匹配。為了保證聲紋識別的實驗準確性,語音數據庫的搜集不僅局限于男性,同時應該搜集一定的女性語音,依這些表現可以推測得出并不局限與年齡,廣泛收集各個年齡階段的聲紋,以保證實驗結論的精準(黃澤哥,語音運行GUI界面,我們可以看到設計的交互界面,此時可以進行語音的訓練,點擊載入語音。個《崔保鑫-聲紋識別系統…程序圖片P搜索"程序旺圖6.3語音數據庫試時是否為所導入的語音,如下圖例所示,將語音命名為學號1700200711,可見下圖:圖6.4特征注冊(羅子和,孫心怡,2021):關閉關閉×點擊YES后聲紋識別系統依次進行MFCC與GFCC的特征提取的算法技術,并將特征注冊的名稱存入系統中。圖6.6MFCC特征計算圖6.7GFCC特征計算等待特征參數計算完成后,此時導入的語音的聲紋特征已被記錄。如要進行識別步驟,則同時需要從語音數據庫中導入所要識別語音,點擊識別測試數再次計算所要識別的語音特征與數據庫中的模型進行匹配。圖6.8特征計算等待特征計算完畢后識別結果將展示在GUI界面上,識別結果即為特征注冊時的語音數據。本文的框架模型建立在現有理論基礎之上,無論是在信息流動還是數據分析方法上,都體現了對前人研究成果的尊重與繼承,并在此基礎上進行了創新與發展。首先,在信息流動的設計方面,本文借鑒了經典的信息處理理論,確保信息從采集、傳輸到分析的每一個環節都能夠高效且準確地進行。通過對數據來源的嚴格篩選和標準化處理流程,使得信息的質量得到了有效保障,從而也能夠更好地注重信息流動的透明度與可追溯性。效保障,從而也能夠更好地注重信息流動的透明度與可追溯性。如要利用特征參數GFCC進行識別,則要在選擇使用的特征參數中選擇GFCC。并再次進行特征參數的計算。識別結果同樣如圖6.9所示,至此完成了語音聲紋識別。6.3參數對比在進行語音識別后,可以在mat文件中觀察到有關識別人的數據,以1700200711語音為例,參照上述分析結果當將說話人語音進行導入后將在mat文件中計算出特征參數,MFCC_feature.mat與GFCC_feature.mat文件,特征參數文件中可以看到包含如下的文件(馬天宇,李涵,2021):工作區◎名稱▲值田no_of_fe111在文件名為fea的文件中可以看到為兩個8*12的矩陣和一個12*1的矩陣即為1700200711語音識別后得到的特征參數數據。no_of_fex0123根據所選語音庫的語音識別,進行重復試驗,首先針對同一個語音聲紋,錄入安靜環境下的作者的語音,并計算聲紋特征存入數據庫。在此基礎下,錄入安靜環境與噪聲較為嚴重環境下的語音并做隨機識別,做MFCC與GFCC各50次重復識別試驗,在實驗后統計后可以得到,在具體情境之中在安靜環境下MFCC與GFCC特征參數識別率均比較高。在數據分種統計方式來驗證數據的有效性,并且識別出潛在的布的獨特性質進行深入挖掘,本文能夠準確地剔除那些顯據,同時保留具有代表性的樣本數據。此外,本文數變化對研究結論的影響力度進行評估,保證最性。而在噪聲環境下的識別可以明顯看出兩者受到噪是對比下MFCC出錯次數比GFCC出錯次數較多,因此可以看出GFCC相比于MFCC的抗噪聲性能較強(熊浩然,孟子涵,2017)。從識別速度上觀察,可以明顯觀察出MFCC特征計算的速度比GFCC的計算速度要快,但是從識別的結果進行統計觀察可以得到提取MFCC特征的識別率低于特征參數GFCC。同樣的環境下進行試驗,MFCC特征受噪聲影響較大,相比下GFCC特征受到噪科學技術的發展,人們在各方面的需求也不斷語音識別技術的發展。為更深度理解語音識別技術,勢,本文研究了MFCC與GFCC的特征參數,從特征參數提取的角度中重點研人識別的優勢。然后對本文將要研究的聲紋識別系統設計程序語言進行選擇,并對所要提取的特征參數進行了選擇。在此大統的框架,對框架中重點的預語音處理部分,特征提取部分包括Mel頻率倒譜法設計進行了介紹,進一步了解了整個識別系此外,本設計依據聲紋識別系統進行試驗,測試了關于特征參數MFCC以及GFCC的聲紋識別效果。最終由測試結果得出結論MFCC

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論