基于時(shí)域?yàn)V波多頻段MMSE的語音增強(qiáng)研究_第1頁
基于時(shí)域?yàn)V波多頻段MMSE的語音增強(qiáng)研究_第2頁
基于時(shí)域?yàn)V波多頻段MMSE的語音增強(qiáng)研究_第3頁
基于時(shí)域?yàn)V波多頻段MMSE的語音增強(qiáng)研究_第4頁
免費(fèi)預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、    基于時(shí)域?yàn)V波多頻段mmse的語音增強(qiáng)研究    劉郭杉+張小宇摘 要:本文提出一種時(shí)域?yàn)V波中多頻帶語音增強(qiáng)的方法,通過將時(shí)域中的未處理語音過濾成各種等效的基于矩形帶寬的子帶,然后在每個(gè)頻帶中使用基于離散余弦變換(dct)mmse來估計(jì)清晰語音。該算法在010db的snr水平上優(yōu)于用于汽車、餐廳、列車、白色和工廠噪聲的現(xiàn)有技術(shù)。關(guān)鍵詞:mmse 多頻帶 dct:tn91 :a :1672-3791(2017)10(a)-0030-02語音通信系統(tǒng)的性能特征在于語音質(zhì)量和可懂度。然而,這些因素容易受到外部噪聲源干擾而劣化。在這些源中,背景噪聲是最常見

2、的,并且以加法方式影響語音信號(hào)。頻域語音增強(qiáng)的噪聲去除方法主要使用傅里葉變換(ft)衍生的頻譜。這種方法不僅可以增強(qiáng)未處理語音的幅度頻譜,同時(shí)可以保持未處理語音的相位不受干擾。雖然這些技術(shù)顯著改善了語音質(zhì)量,但是它們作為單個(gè)實(shí)體作用于整個(gè)頻帶,而語音和噪聲分量并不是均勻地分布在所有的頻帶上。因此,提出了改進(jìn)的多頻帶譜減法,將未處理語音頻譜線性或非線性劃分各個(gè)子帶,并且獨(dú)立地對(duì)每個(gè)子帶執(zhí)行噪聲去除,即通過傅里葉變換給每個(gè)頻帶不同的權(quán)重,將信號(hào)分解成含有不同權(quán)重的頻率分量。未處理語音由于噪聲的不均勻分布,頻域頻帶劃分將導(dǎo)致子帶具有不同的信噪比(snr),當(dāng)每個(gè)子帶中的語音分量被增強(qiáng)時(shí),每個(gè)子帶的s

3、nr改變,即頻率分量的分布也與之前的不同。所以,在使用導(dǎo)出原始未處理語音的權(quán)重就會(huì)導(dǎo)致純凈語音的不準(zhǔn)確估計(jì)。為了克服這些問題,使用時(shí)域?yàn)V波可能會(huì)更合適。1 全頻帶mmse(dct-c)mmse頻譜幅度估計(jì)器使用從up語音頻譜分量估計(jì)的先驗(yàn)snr和后驗(yàn)snr來估計(jì)干凈語音頻譜。up語音信號(hào)的dct導(dǎo)出頻譜的mmse估計(jì)器收斂到weiner濾波器用于實(shí)變換,并且其由下式給出:其中,是由決策指導(dǎo)方法估計(jì)的先驗(yàn)snr,并且是當(dāng)前段是語音段的似然性。固定值表現(xiàn)出對(duì)特定情況(僅噪聲/語音)的偏差。另一方面,對(duì)于基于多頻段dct的mmse估計(jì)器,提出了一種基于全局和局部先驗(yàn)snr來計(jì)算閾值的方法,并且在下面

4、的部分中討論。2 時(shí)域?yàn)V波多頻帶mmse(tmb-mmse)當(dāng)前的工作中,使用頻帶特定的閾值來計(jì)算用于多頻帶mmse的。在每個(gè)頻帶信號(hào)中,基于兩個(gè)因素,即(i)全局先驗(yàn)snr()和(ii)局部先驗(yàn)snr()來計(jì)算用于固定的閾值,其中前者是為up全帶信號(hào),后者是為子帶信號(hào)估計(jì)的先驗(yàn)snr。對(duì)全帶up語音段和第i個(gè)子帶濾波段的第t段估計(jì)的全局1和局部2先驗(yàn)snr由下式給出:其中,是針對(duì)第t個(gè)語音段中的第n個(gè)樣本估計(jì)的先驗(yàn)snr,并且n是段中的樣本的總數(shù)。3 性能評(píng)價(jià)語音增強(qiáng)算法使用從timit語料庫,noisex-92是一個(gè)噪聲數(shù)據(jù)庫,包括8種不同的非固定噪聲、如工廠、機(jī)槍、白噪聲、粉紅噪聲等。將

5、來自noisex-92和aurora數(shù)據(jù)庫的噪聲以不同的snr水平被添加到timit和noizeus數(shù)據(jù)庫中的干凈的語音中,獲得未處理語音信號(hào)。在這個(gè)系統(tǒng)中,以010db的snr水平,添加5個(gè)不同的噪聲,即,餐廳噪聲,白噪聲,工廠噪聲(選自noisex-92)、汽車噪聲和火車噪聲(選自aurora)。up語音信號(hào)是以25ms的幀大小和段之間50%重疊的漢明窗口。tmb-mmse與dft-c和dct-c的比較:tmb-mmse,dft-c和dct-c算法的目標(biāo)質(zhì)量度量顯示如下。所提出的方法(tmb-mmse)導(dǎo)致所考慮的所有噪聲條件下pesq評(píng)分的語音質(zhì)量得到改善。對(duì)于汽車,工廠和白噪聲,質(zhì)量提

6、高了0.30.8,而對(duì)于火車和汽車噪聲,tmb-mmse參考up語音實(shí)現(xiàn)了0.20.4的改善(見表1)。根據(jù)sd分?jǐn)?shù),tmb-mmse與dct-c和dft-c相比較。通過tmb-mmse增強(qiáng)的語音中的殘余噪聲與dct-c和dft-c相比較,通過tmb-mmse增強(qiáng)的語音中bd的減少對(duì)于汽車,白色和工廠噪聲為0.30.5左右,而對(duì)于混音和列車噪聲,分別減少了0.1和0.2(見表2)。總而言之,tmb-mmse通過dct-c顯著地提高了整體增強(qiáng)的語音質(zhì)量,dct-c提高了0.10.3,dft-c提高了0.020.3。4 結(jié)語在這項(xiàng)工作中,使用dct派生的頻譜開發(fā)了時(shí)域?yàn)V波多頻帶(基于erb)語音增強(qiáng)算法。通過時(shí)域?yàn)V波克服了存在于頻域多頻帶方法中的相鄰頻帶頻率分量的影響。實(shí)驗(yàn)結(jié)果可以看出,本文提出的算法比傳統(tǒng)的語音增強(qiáng)方法增強(qiáng)效果好。pesq值驗(yàn)證了改進(jìn)的算法具有更好的語音質(zhì)量。使用改進(jìn)的算法具有比傳統(tǒng)算法低的sd量和bd量。參考文獻(xiàn)1 于文慧.基于短時(shí)譜估計(jì)的mmse語音增強(qiáng)算法研究d.長春:吉林大學(xué),2012.2 寧礦鳳,王景芳.dct域維納濾波語音增強(qiáng)j.計(jì)算機(jī)工程與應(yīng)用,2015,51(8):226-230.endprint科技資訊2017年28期科技資訊的其它文章利用excel vba

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論