2025基于LSTM的端到端聲紋識別算法實現_第1頁
2025基于LSTM的端到端聲紋識別算法實現_第2頁
2025基于LSTM的端到端聲紋識別算法實現_第3頁
2025基于LSTM的端到端聲紋識別算法實現_第4頁
2025基于LSTM的端到端聲紋識別算法實現_第5頁
已閱讀5頁,還剩9頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

目錄TOC\o"1-3"\h\u18327 1202341. 3147311.1. 3157251.2. 3219571.3. 356822. 462062.1. 4268972.2. 4201982.2.1. 4155952.2.2. 5233013. 7133513.1. 727193.2. 10115373.3. 10127603.3.1. 1115653.3.2.GE2ETE2E 12114443.4. 13115674. 141945年,Kersta(Voiceprint)1969年,JE.Luck在對語音特征分析的基礎上,首次提出將倒譜技術應用到聲紋識別技術中[2],其實驗結果較為理想。B.S.Atal從中受到啟發,他通過對聲道進行分析建模提出了一系列參數,其中最著名的就是線性預測倒譜系數[3](LinearPredictiveCep-strumCoefficients,LPCC)80S.B.DavisHermansky對人耳的聽覺特性的分析和研究,Mel頻譜的梅爾倒譜系數[4](MelFrequencyCepstralCoefficients,MFCC)。七十年代的矢量量化技術(VectorQuantization,VQ)VQ算法被應用于聲紋識別領域[5]。為進一步提高識別結果,隱馬爾科夫模型[6](HiddenMarkovModel,HMM)作為概率模型的提出聯合因子分析[7](JointFactorAnalysis,JFA),在建模過程中將GMM的均值超矢量所包含的信息分解為兩部分:說話人與說話人之間的差異(SpeakerVariability,SV),和相同說話人不同語音段之間的差異(SessionVariability/ChannelsVariability,CV)i-vector算法PLDA算法。近幾年,隨著計算能力的快速提高,深度學習被越來越多的應用到聲紋識別領域[8],成績斐然。以ImageNet[9]為代表,深度學習神經網絡在圖像識別以及分類領域取得巨大GoogLeNet,VGG,ResNet等等。就語音識別領域來說,深度神經網絡模型強大的擬合能力和泛化能力足以代替GMM模型,其模型建立和DNNDNNGMMLSTM神經網絡的結構。作為模式識別的一類,聲紋識別的主要任務是通過待測試語音來判斷對應說話人身份。聲紋識別可以分為兩類。若已知待測說話人的范圍,需要通過隨機或者特定的語音段來判斷是否屬于某個說話人,這屬于聲紋確認技術。這種問題是1對1的身份判別問題。若待測說話人的身份范圍沒有確定,需要通過隨機或者特定的語音段來確定說話人的身份,這屬于聲紋辨認技術。這種問題是1對N的身份辨別問題。11的、文

Hz1

為了對語音信號進行頻域分析,傅里葉變換是一種常見的工具。傅里葉變換的存在條件是信號經歷的隨機過程是平穩的,但是從宏觀層面看,要求信號平穩的這個條件過于苛刻。在微觀層面看,當信號被限定在一個較短時間內,就可以視為平穩信號。把信號的連續若干點設為一幀,這樣的操作被稱為分幀。分幀后的信號還不能馬上進行傅里葉變換。由于分幀后的語音信號不光滑,信號的分辨率較差,因此在做傅里葉變換之前,還要先對信號乘以一個窗函數。這樣的操作被稱為加窗。加窗的目的是為了讓分幀后的信號的兩端無限接近于0。此項操作可以提高變換結果的分辨率。但加窗的會削弱信號兩端的部分,所以在分幀時可以考慮相互重疊,重疊的部分一般是幀長的一半,這部分被稱為幀移。Figure1.Hanningwindow1.線性預測分析(Linearpredictivecoding1aHz1a

H

Uz

1i

a,LPC參數在倒數譜中的表示,能夠很好地反應人的聲道特征[10]。下面是由線性預akLPC系數。

nncnan1kCk

0n

k1k

nCk n,

1f

10 2kfm Hkfm1fm1fmfm 2fm1k fm1fm1fmfmfmm123,?M.M22~26。

kfm1orkfmfm1kfmfmkfm

SmlnN k

k2

k,0m

LMFCCL12~16MFCC特征參數提取過程如2Figure2.MFCCfeatureparameterextractionprocess2MFCC決循環神經網絡出現的問題,有學者提出了長短時記憶網絡[12](Longshort-termmemory,LSTM)。在循比,LSTM能夠學習長期依賴信息。tanh層,如3Figure3.Asimplerecurrentneuralnetworkpattern3.1tanh3sigmoid層,如4Figure4.Asimplelong-andshort-termmemorynetworkmodel4.sigmoid神經網絡層和一個乘法操作,如5Figure5.Controlstructurein5LSTMLSTM神經網絡中有三個類似的控制結構,來控制神經網絡中細胞的狀態(state)。ht1xt,計算公式為ftWfht1,xtbfFigure6.ThefirststepofLSTMneural6LSTM

sigmoid層,該層決定什么值需要更新。另胞會根據這兩個值進行更新,如7所示。這兩部分的計算公式為:itWfht1,xtbf

Figure7.ThesecondstepofLSTMneural7LSTM是新的細胞狀態,如8所示。計算公式為:CtftCt1itFigure8.ThethirdstepofLSTMneural8LSTMotWoht1,xtbohtottanhCtFigure9.ThefourthstepofLSTMneural9LSTM

至此,一層簡單的LSTM神經網絡創建完成。實驗中通過Python語言的Pytorch工具包中的Figure10.Usethenn.LSTMfunctiontoquicklycreateanLSTMneural10.nn.LSTMLSTM參考文獻[13]中介紹了一種基于三元組的端到端損失函數(theend-to-endlossfunctionbasedonjXMXkmm12,?M作為一個元組送入LSTMX是從定長段語音信號中提取的梅爾頻譜系數,jk代表話語的說話者。兩者相等的關系不確定。若兩者相等,則說明來自同一個說話者,認為該元組是正元組j(negative)M個話語構建的聲紋(voiceprint),計算過程如下:cE

1

m

swcosej~,ck

LTej~,ckj,ks1j,k1s

TE2Esjk時,TE2E損失函數會使相似度越來越小。這兩種元組的FaceNet[14]中使用的正負元組非常類似。TE2E損失函數的一種改進后的形式(ageneralizationofourTE2Earchitecture)。我GE2E損失函數。這種改進后的算法以一種更加有效的方式生成嵌入矢量,這方式顯著提高了Figure11.OverviewofVoiceprintRecognition11.模型采取大小的話語來構造一個批次(batch)MN個不同的NMXjiji的范圍分別是1jN和1iM。ji個的話語。LSTM神經網絡。LSTM神經網絡的最后一層連接了一個線性層,用來降低特征向fXji;WLSTML2正則形式可以得到嵌入矢量(d-vector),嵌入矢量的計fXji;WfXfXji;W這里的ejiji個話語的嵌入矢量。定于所有嵌入矢量的中心為該說話者的聲cjj個說話者的聲紋,計算公式為:ccE

1

m

定義每個嵌入矢量ejickSji,kSji,kwcoseji,ck wb分別是神經網絡可以學習的權值和偏置。為了余弦相似度越大時,相似度矩陣也越大,我們w0。與改進之前的損失函數相比,TE2EGE2E損失函數的主要區別如下:219可知,GE2E的相似度是矩陣形式。它定義了嵌入矢量和所有元組中心之間的相似度。圖1展示了整個過程,包括來自不同說話人的特征、嵌入矢量以及相似度評分,并用不同的顏色表ckSji,k,有兩種損失函數可以實現這種要Figure12.Schematicdiagramofembeddingvectorandvoiceprintoftrueandfalsespeakers12.Softmax.k12,?Njk1,0。因此,每個嵌入矢量eji上的損失可定義為:LejiSji,ilogexpSji,kk1kLeji1Sji,jmax1kk

此外,我們還觀察到,在計算真正說話者的聲紋時,一種簡單的方案是去掉eji。這樣會使得模型更容易收斂。因此,我們在計算負相似性kj16kj22:ci

M

ejm

S

w

,ci k

LGx;wLGSLeji

其中1jN,1iMGE2ETE2E1、正元組:記為

ji,X

,?,

,其中1

Mp1,?P。一共有MPPP2、負元組:記為XjiXk,i1,?X

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論