2024基于SE-DR-Res2Block聲紋識別方法_第1頁
2024基于SE-DR-Res2Block聲紋識別方法_第2頁
2024基于SE-DR-Res2Block聲紋識別方法_第3頁
2024基于SE-DR-Res2Block聲紋識別方法_第4頁
2024基于SE-DR-Res2Block聲紋識別方法_第5頁
已閱讀5頁,還剩2頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

SE-DR-Res2Block的聲紋識別方法聲紋識別是一種現代生物識別技術,其通過轉換儀器將收集的聲波特征轉化成相應的波譜圖形并與已經存儲的波譜圖形進行對比,從而辨別是否屬于同一個體以實現身份驗證的功能[1].聲紋識別是語音處理領域的熱點研究方向之一,其可實現計算機準確識別說話人的語音信息,進而分析語音中的聲紋信息,進一步提高了計算機的語音處理能力.聲紋識別具有非接觸式、便利性高、安全性高、識別成本低、可遠程確認等優點,因此聲紋識別技術被廣泛應用于銀行交易和遠程支付的信息安全[2]、調查嫌疑人是否有罪[35]、自動身份標記[6]等領域.針對聲紋識別技術,國內外諸多學者分別基于傳統機器學習、深度學習兩類方法開展了大量的實驗與理論研究.其中,基于傳統機器學習,等[7]提出特征信道自適應以降低信道干擾;鮑煥軍與鄭方[8]提出高斯混合模型?通用背景模型(ussianelbackgroundmodel,),采用多個M模型來擬合不同的說話人;Kenny等[9]提出聯合因子分析,采用超矢量空間的子空間進行重新建模以消除信道差異的干擾;Cumani等[10]提出新的概率線性判別分析以用于短語音的識別.近年來,隨著深度學習方法的不斷深入,聲紋識別技術也取得了飛躍性的進展.谷歌提出通過深度神經網絡訓練,提出了d-vector作為說話人特征,并對說話人在幀級別進行分類[11];r等[12]結合d-vector和時間延遲神經網絡[13],提出了能夠有效表示包含上下文信息的語句級x-vector;Okabe[14]通過引入一

種新的注意力機制以捕獲聲紋的長期變化;Jiang等[15]提出將稠密連接卷積網絡[16]與門控機制相融合的DDB+Gate(Dilatedesandeblocks)網絡,其采用擴張濾波器以獲取更多的時頻上下文信息,并通過前饋方式的稠密連接來收集上下文信息;Zhou等[17]通過-lnetworkwitheandexcitation)和-supervisionsoftmax)相結合的-34-E系統,利用錯誤分類樣本的先驗知識提升分類能力;等[18]通過引入一種帶典型相關分析約束的多特征學習策略,最大化相同說話人話語的相關性.綜上所述,盡管諸多學者對聲紋識別開展了較為深入的研究,但必須指出的是:(1)當前國內外對聲紋識別技術的研究仍存在待解決的技術難點;(2)已有模型缺乏對聲紋低語義特征的關注,其導致模型特征表達能力不足、泛化能力不強.文獻[19]提出的-(Emphasizedattention,propagationandaggregationinedelaylnetwork)神經網絡采用的是t[20]中的Res2Block,其具有更大的感受野,雖可獲取不同尺度的特征,但仍缺乏對低語義特征的關注,其中低語義特征是指淺層網絡中包含大量空間信息、更注重細節信息的特征,高語義特征更集中于全局信息.文獻[16]提出了稠密連接神經網絡,其通過層與層之間的稠密連接來達到特征重用的目的但增加了模型的大小和計算復雜度.因此,本文在k基礎上,首先將t中的特征重用應用于Res2Block;其次為進一步提升泛化能力,本-Blockeandexcitationblock)模型的思想對k進行改進,進而提出一種基于稠密連接、殘差連接和通道特征響應的特征提取模塊--Res2Blockeand-tationwitheandlconnectedRes2Block).ECAPA-TDNN網絡和稠密連接結構ECAPA-TDNN網絡ECAPA-TDNN是一種基于時間延遲神經網絡(TDNN)的聲紋提取器其工作原理是首先通過TDNN和傳統的殘差模塊Res2Block相結合,形Res2Block以期獲取時間上下文信息;其次,添加SE-Block來改善信道特征信息,形成SE-Res2-Block(SequeezeandexcitationRes2Block),如圖1所示,其具體工作流程為:

-k中:(1)特征拆分有助于提取全局和局部信息;(2)通過對不同復雜程度的層特征進行聚合達到不同尺度的信息融合,提升模型的特征提取能力.該結構通過將不同感受野的特征進行聚合,其雖有效地提升了性能,但必須指出的是,除第s組zs=xs,其余每組的輸入特征都經過一維卷積處理,再將處理后的特征進行聚合形成輸出,其輸出包含xs全部信息和x1到xs?1中高語義特征,因此輸出特征未包含原始輸入x1到xs?1中的低語義特征,因此導致原始輸入特征xi(1?i?s)低語義特征信息未能充分利用.稠密連接網絡DenseNet網絡的主要結構為DenseBlock,其每一層的輸入均源于前面所有層的輸出.設一個Den-seBlock結構中有l層故其包含l×(l+1)/2個連接.因其每層特征均通過稠密連接的方式連接后續所有層,記每一層的輸入為x0,x1···,xl,則第l層的l?1層的特征相關,其可表示為xl=SE-SE-:Conv1d :

x1···xl?1]),其中[x0,x1···xl?1]l1層特征在通道維度上的合并Hl(·)代表非線性轉化函數,其為卷積操作、批量標準化、激活函數后的結果,如圖2所示.該結構雖可實現特征重用提升效率,并有效改善梯度消失的問題,但由于其需通過增加每層的信道維度來增加網絡寬度故不僅增加了模型的大小和計算復雜度且只能獲取有限的性能提升[16].1SE-Res2Block(T5,sFig.1SchematicdiagramofthestructureofSE-RES2Block(Tis5,sis4inthe首先,設輸入二維特征(C×T)C代表維T代表幀數;其次,將特征的維數等分為s組,且每組分別進行卷積,xi(i1,2,···s})為輸入特征,其輸出zi可表示為: (i=

x02Fig.2Schematicdiagramofthedenseconnection上述研究表明(1)SE-Res2Block通過對不同z=(x⊕

(1<i<

感受野的特征聚合實現對多尺度特征信息的提 (i=其中,Ci表示一維卷積、⊕表示特征相加,一維卷積可有效的結合時間上下文信息,處理不同時長的語音[13].zi=Ci(xi⊕zi?1),其將前一組的輸出與第i組的當前輸入特征進行相加作為第i組新的輸入再進行卷積,這種層次殘差連接的方式,增加了輸入特征的尺度數量進而擴大其感受野[20].最后,如圖1所示將不同的輸出zi再重新進行聚合,SE-Block[21]以校準通道特征響應

取但其未能充分利用原始特征中的部分低語義特征,導致特征信息的損失;(2)DenseBlock通過對特征的重用來保證特征信息的完整性但特征的過多重復利用會導致特征冗余和效率降低.SE-DR-Res2Block模塊結構基于上述理論,為保證特征信息的完整性并減少特征冗余,論文通過將k的稠密連接結構和-k相結合提出--Res2Block.DenseBlock中的稠密連接結構及SE-Res2Block中的殘差連接結構分別以增加信道維度和堆疊更多的卷積層的方式來加深網絡均可有效捕捉聲紋信息將兩者進行融合得到SE-DR-Res2Block

取全局信息其次每一組特征分別進行稠密和殘差連接,其輸出特征zi可表示為:將通道維度上每一層的特征映射進行連接作為下

zi= (i=

一層的輸入,同時堆疊更多的卷積層,使不同層次特征信息進行融合更加充分地利用了多分辨率層的信息.SE-DR-Res2Block模型結構如圖3所其工作流程如下所示:

?表示特征合并.式(3)yi⊕xi將同組中層特征yi與相應原始特征xi相加,在同一組中增加感受野,對不同尺度特征進行聚合,該結構以多尺度特征提取本地信息.然后,由Ci((yi⊕xi?xi)可知,將上述聚合后的特征再與原始特征xi進行合并,實現原始特征的重用,其既保證原始特征信息完整性,又可獲得高語義特征,增強特征表達能力,合并后的特征經過卷積從每組中獲取不同感受野大小的特征,將所有組輸出特征zi重新聚合以融合不同組的特征信息,從而獲取更多尺度的全局信息.最后,將聚合后的特征輸入到-Block,其結構如圖4所示,相較于傳統結構,這里采用卷積層替代全連接層,不僅降低了訓練需要的參數,權重共享,可降低過擬合.-k通過建立通道間的相互依賴關系,從而達到通道特征響應的目的,其可獲取不同特征通道的重要程度,增強重要特征并抑制非重要特征.:::SE-

convolution3SE-DR-Res2Block(T5,s4)Fig.3SchematicdiagramofthestructureofSE-DR-Res2Block(Tis5,andsis4intheexample)首先,將輸入特征切分為s組,每組特征xi(1?i?s)分別進行卷積,圖中yi(i∈{1,2,···s1})為中層特征yi可表示為: (i=

4SE-BlockFig.4SE-Blockstructure綜上所述SE-DR-Res2Block的工作原理為(1)基于殘差結構將每個維度下聲紋信息進行疊加以提高每個維度上的聲紋信息實現不同尺度特yiyi=Ci(yi?1⊕xi)(1<i?s?

征的聚合;(2)基于稠密連接結構實現特征信息重用其通過對特征維度上的合并以提取整個特征其中yi=(yi?1⊕xi)中將當前特征xi與前一組的特征yi?1進行相加后進行卷積,獲取當前組的中層特yi.當前組中層特征yi接收前一組特征yi?1信息后相應信息感受野增大上述不同組特征相加,使得每組中層特征實現對不同感受野特征的聚合,不同感受野包含不同尺度信息,當一個Ci接收來自前一個Ci的特征信息時相應的感受野會增大,而在這種殘差結構中有若干個卷積層,這種操作經過層層作用最終使得網絡的輸出獲得多種感受野大小的組合從而有效地以多尺度特征提

所含的聲紋信息;二者結合使模型同時增加了維度數和每個維度的信息以實現對特征信息的充分提取,從而增強特征表達能力;(3)-k增加了對通道信息的關注,更有利于提取重要聲紋特征提升泛化能力.實驗設置實驗數據集論文實驗采用文本無關說話人識別的開源數Voxceleb1[22SITW(Speakersinthewild)據集[23].實驗中訓練集采用的Voxceleb1的訓練集,包含了1211名說話人共計148642條語音,頻率為16kHz,單聲道,音頻無靜音段,不需要進行語音活動檢測處理[24].Voxceleb1的測試集包含40名說話人共計4874條語音,這些語音數據被處理成37720個測試對用于注冊和測試W數據集是來自媒體的人工注釋的語音樣本,該數據集包含299名說話人,平均每人有8音.實驗使用W的評估集,包含180名說話人共計2883條語音,采用-core測試場景進行測試,其中core表示樣本中只包含單個說話人.系統設置優化器優化模型性能batchsize設為128,初始學習速率設為0.001,并采用余弦衰減的學習速率策略來調整學習速率,訓練輪次設為70,使用批量標準化和ReLU激活函數加速收斂.原始語音特征采用梅爾頻率倒譜系數[25],并對特征進行歸一化處理.AAM-softmax(Angularadditivemarginsoftmax)損失函數[26進行訓練,其中參照ECAPA-TDNN體系結構中,1024通道,SE-Block和注意力模塊瓶頸維度設為128.SE-DR-Res2Block的參數s設置為8,采取最后一層192維向量作為說話人特征向量.最終得分采用簡單的余弦距離進行打分,性能指標使用等錯誤率(Equalerrorrate,EER)和最小檢測代價函數(Minimumnormalizeddetectioncost,minDCF).實驗結果不同模塊下Res2Net-50的性能比較實驗采用不同模塊下的網絡模型,并分別在Voxceleb1數據集上進行性能測試.實驗采用EER作為性能指標來評價其性能,0.1、0.01、0.001為真實說話人出現的先驗概率,以下用p值表示,其中x-vector作為基線系統,其他實驗均在Res2Net-50

Res2Block進行,50表示網絡結構中包含49個卷積層和1個全連接層.以下Res2Net-50系統;文獻[27]提出的FULL-Res2Block的結構應用在Res2Net-50上的系統,均簡記為FULL-Res2Net-50,其中FULL表示文[27中全連接結構形式;基于本文SE-DR-Res2-Res2NetFULL-SE-DR-Res2Net-50系統.由1可知:(1)SE-DR-Res2Net-50系統相較于Res2Net-50系統參數量增加10.69×106EER下降5.9%,minDCFp0.1、0.01、0.001分別降低了3.9%、1.8%、2.5%;(2)FULL-SE-DR-Res2Net-50FULL-Res2Net-50系統,10.69×106,EER下降了5.4%,minDCFp值為0.1、0.010.001分別降低了1.9%、1.6%、0.6%.結果表明應SE-DR-Res2Net的參數量增加,系統性能均有所提升表明其具有更低的等錯誤率和最小檢測代價函數也證明了稠密連接和殘差連接結合的有效性.不同模塊下ECAPA-TDNN的性能比較為體現SE-DR-Res2Block結構的適用性在ECAPA-TDNN上進行性能測試結果如2所示,其x-vector作為基線系統其他實驗均在ECAPA-TDNN系統上實現,Res2Block進行實驗其中,Res2Block模塊的簡記為Res2-Block,基于文獻[27FULL-Res2Block模塊的簡由表2可知(1)其中基于SE-DR-Res2Block模塊的系統,Res2BlockECAPA-TDNN系統,在參數量僅增加1.98M的情況下,EER10%,minDCFp0.1、0.01、0.001分別9%、8.9%、3.8%;(2)FULL-SE-DR-Res2Block模塊下的系統相較于FULL-Res2Block模塊下的系1Voxceleb1Res2Net-50(p=(p=(p=x-(p=(p=(p=x-Res2Net-FULL-Res2Net-SE-DR-Res2Net-FULL-SE-DR-Res2Net-2Voxceleb1ECAPA-TDNNTable2PerformancecomparisonoftheVoxceleb1testsetunderdifferentECAPA-TDNN(p=(p=(p=x-FULL-SE-DR-FULL-SE-DR-統,1.98M,EER5.5%,minDCFp0.1、0.01、0.001分別降低了5.6%、5.4%、2.2%.實驗結果表明,論文提出的結構在不同網絡模型下也具有良好的性能且在該模型下參數量增幅小,對訓練耗時影響小.機器學習的目的是為了讓訓練后的模型能更好地適用于新鮮樣本這種適應能力稱為泛化能力為驗證結構的泛化能力在數據集SITW中的core-core測試場景中進行測試,其實驗結果如表3所示:(1)SE-DR-Res2BlockRes2Block,參數1.98M,EER6.6%,minDCFp值0.1、0.01、0.0012.2%、4%、7.6%;(2)FULL-SE-DR-Res2Block相對于FULL-Res2Block,參數量僅增加1.98M,EER下降了4.3%,minDCF在p值0.1、0.01、0.001分別降低了0、3.4%、3%.由上述結果可知,SE-DR-Res2Block在新鮮樣本的測試中也具有良好的性能進一步證明了該模塊具有良好的泛化能力.不同時長的性能對比為評估系統對不同時長的效果實驗采用core-core測試集下的三個子測試集分別是小于15s的語音,15s25s的語音及大于25s40s的語音.Res2BlockECAPA-TDNN網絡系統上進行測試x-vector系統作為基線系統,實驗的具體結果如表4所示.

由表4可知:(1)隨著時長的增長,因語音時長越長,包含的聲紋信息也越多,所有系統的R均降低,表示其性能均有提高;(2)在系統中采用--k相較于Res2Block,R在0~15、15252540s11%9.3%3.8%(3)----k相較于-Res2Block,在01515252540s13.3%5.3%、2.8%;(4)其中時長越短,性能提升的愈明顯,在所有時長中--k的性能最佳.實驗結果表明,論文提出的結構對不同時長也具有明顯優勢,且其對短時語音的性能表現最好.圖5顯示的不同時長下不同系統的檢測錯誤權衡曲線.由圖5可知,--k的大部分曲線在其他系統曲線的下方,表明較其他系統在大部分工作點,即在eee相同的條件下,其eee更低,具有更好的性能.不同模型下的性能對比為評估系統的有效性在相同數據集下對不同模型的性能進行比較.所有實驗訓練集均為Voxceleb1的開發部分測試集Voxceleb1和SITWVoxceleb1的測試集和SITWcore-core測試場景.結果如表5所示本文系統在Voxceleb1數據集上相較于文獻[14]的新注意力機制、文獻3SITWECAPA-TDNN(p=(p=(p=x-(p=(p=(p=x-FULL-SE-DR-FULL-SE-DR-4SITW<1515–2525–40x-<1515–2525–40x-

的錯誤樣本提升先驗概率、文獻[18]的多特征學習策略,R分別下降了42%、36%、23%.在數據集上相較于文獻[18]中的多聲學特征結構)和多特征學習策略--A(Long-mand-mslearningewithlcorrelationsconstraint),R分別下降了29%、13%.結果表明,本文

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論