用隱馬爾科夫進(jìn)行語音識別_第1頁
用隱馬爾科夫進(jìn)行語音識別_第2頁
用隱馬爾科夫進(jìn)行語音識別_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

用隱馬爾科夫進(jìn)行語音識別

作者:B.H.Juang,L.R.Rabiner

語言語音研究所,Bell實驗室MurrayHill,NJ07974摘要:在近幾年發(fā)表的論文和大型語言語音會議上中,隱馬爾科夫定律已經(jīng)成為語音識別研究的主導(dǎo)方法。這個方法之所以如此流行就在于其固有的統(tǒng)計框架:從有限語音訓(xùn)練集數(shù)據(jù)中訓(xùn)練出模型近似參數(shù)的簡單易行;模型可根據(jù)特殊的詞匯、聲音等改變認(rèn)知系統(tǒng)的大小、種類或模型的架構(gòu)的靈活多變;實現(xiàn)整個認(rèn)知系統(tǒng)的簡單方便。在這篇解釋性的文章中,我們將講解應(yīng)用在語音識別中的非常重要的統(tǒng)計方法,并討論一系列尚未解決的原理性的和實際性的問題,因為他們很重要并對不同系統(tǒng)實現(xiàn)的性能有很大影響。關(guān)鍵詞:Baum-Welch算法,Incompletedataproblem‘Maximumaposterioridecoding;極大似然度機(jī)器語音識別已經(jīng)達(dá)到了可以投入到實際使用的水平了。大量的語音識別系統(tǒng)已經(jīng)應(yīng)用在眾多應(yīng)用領(lǐng)域如語音撥號、語音應(yīng)答、語音查詢股價、語音報價等。導(dǎo)致這些有用的技術(shù)能夠應(yīng)用于實際是因為最近技術(shù)的進(jìn)步使得語音認(rèn)知系統(tǒng)能辨別不同的說話者并達(dá)到了一定量的認(rèn)知詞匯。其中的一項進(jìn)步就是統(tǒng)計方法的使用,馬爾科夫模型就是其中一個很有趣的方法。使用HMM來進(jìn)行語音識別在過去的一段時間內(nèi)很流行。雖然報告過的大量基于HMM的語音認(rèn)知系統(tǒng)不易在此深入地討論,列出其中最重要的部分和這些系統(tǒng)的成功之處仍然是值得的。其中包括在卡內(nèi)基梅隆大學(xué)早期進(jìn)行的DragonSystem的工作,IBM公司在語音系統(tǒng)方面進(jìn)行的長期的工作,在Bell實驗室的工作,MIT林肯實驗室的工作,Philips在使用HMM進(jìn)行的整詞識別的工作,DARPA資源管理任務(wù),及其它在該相關(guān)領(lǐng)域的眾多的工作。HMM的廣泛流行可以歸功于它簡單的算法結(jié)構(gòu)和它相對于其它語音識別方法的清晰高效性。性能,特別是精度,是評價一個語音認(rèn)知系統(tǒng)實際價值的關(guān)鍵因素。語音識別任務(wù)經(jīng)常根據(jù)它的需求,如是處理特定的還是非特定說話者,處理單個詞匯的輸入還是連續(xù)的一個句子的輸入,來進(jìn)行分類。如今,該技術(shù)能夠輕松達(dá)到對非特定說話者的精確識別,當(dāng)識別由非特定說話者說出的連續(xù)數(shù)字字串時,錯誤率僅有2-3%.更進(jìn)一步,但在非特定說話者以特定的語法限制說出連續(xù)1000個詞時,一些使用HMM的系統(tǒng)證實可以達(dá)到96%的識準(zhǔn)率。這些結(jié)果說明了自動語音識別系統(tǒng)在指定的應(yīng)用中的有用性和可用性。雖然隱馬爾科夫模型顯著地改善了當(dāng)前語音識別系統(tǒng)的性能。完全流利的、非特定說話者的語音識別仍是一個普遍存在并等待著解決的問題。例如,沒有一個系統(tǒng)能夠識別沒有限制(話題)的對話語音,也沒有一個好的方法使用借助于有限語料庫的統(tǒng)計方法去推斷語言的結(jié)構(gòu)。這篇解釋性的文章的目的是提供HMM的原理的一個概述,討論統(tǒng)計方法的作用,并指出一系列值得注意和理解的原理性和實踐性問題,以便于推動語音識別這一領(lǐng)域的發(fā)展。1.語音的度量和建模語音是不穩(wěn)定的信號量。當(dāng)我們說話時,我們的發(fā)音器官(嘴唇、下顎、舌頭,如圖1所示)調(diào)節(jié)空氣壓力并影響氣流產(chǎn)生一系列的聲音。雖然任何一個聲音的范圍會是在幾千赫茲的范圍內(nèi),我們的關(guān)節(jié)配置(聲道形狀,舌頭移動等)經(jīng)常不能忍受每秒超過10次的動態(tài)變化。語音建模包括兩個方面:(1)以10毫秒采樣分析不同聲音的短時間的范圍屬性,(2)根據(jù)關(guān)節(jié)配置的不同,以100毫秒采樣去分析長時間聲音的變化特征。隱馬爾科夫模型統(tǒng)計方法在HMM方法發(fā)展的過程中,如下問題顯得特別有意思。首先,給出一個觀察序列O和一個模型入,我們怎么樣有效的度量模型入產(chǎn)生觀察序列O的概率,即Pr(OI入)?第二,給出觀察序列O,反過來我們怎么解決估算模型入中的參數(shù)?雖然(8)中的概率不完全依賴于q,(譯者注:(8)是在論文前出現(xiàn)的一個公式),關(guān)于導(dǎo)致觀察序列O的最可能的狀態(tài)序列q的信息在很多的應(yīng)用中都是需要的。第三個問題就是怎么有效地從觀察序列O中推出最有可能的狀態(tài)序列q.通常我們將這三個問題稱為(1)評估問題(2)估計問題(3)解釋問題。在下面的段落中,我們將描述幾個對這三個問題通用的解決方法。2.1評估問題在評估問題中主要關(guān)注的是計算的效率。如果沒有復(fù)雜度約束,可以直接簡單的直接計算出Pr(OI入).在公式(8)中,一共有個可能的q序列。總共的計算需要2*T*個操作。計算公式(8)同時沒有指數(shù)級增長的計算量,是HMM技術(shù)實現(xiàn)的第一個挑戰(zhàn)。幸運(yùn)的是,使用著名的前向-后向算法,這個昂貴的計算開銷可以輕松的減輕。2.2估計問題給出一個觀察序列(或一個序列的集合)O?估計問題包括找到合適的模型參數(shù)使模型最可能產(chǎn)生給定的序列。在語音識別中,這經(jīng)常被稱為“訓(xùn)練”。我們用來獲取模型參數(shù)的給定序列,被成為訓(xùn)練序列,即使這兒的準(zhǔn)則是統(tǒng)計的。2.3解釋問題正如前面所說的,我們經(jīng)常對找到產(chǎn)生觀察序列O極大似然度的狀態(tài)序列感興趣。雖然HMM的概率度量定義中沒有涉及到狀態(tài)序列,在很多的應(yīng)用場合中仍然需要知道極大似然度的狀態(tài)序列。舉個例來說,如果我們使用一個詞匯模型的狀態(tài)來代表該詞匯中的特定的聲音,就有必要知道語音片段和詞的聲音之間的關(guān)系,因為單獨的語音片段為語音識別提供了有用信息。2.4使用HMM進(jìn)行語音識別HMM在語音識別中的應(yīng)用和其他傳統(tǒng)的模式匹配方法差不多。成功的使用HMM算法包括一下步驟:定義一個用來建模的L聲音類的集合。例如音素或詞匯,定義聲音類V={v1,v2,..,v3};對于每一個類,積累一定量的已知的標(biāo)記語音集合。在訓(xùn)練集合的基礎(chǔ)上,解決估計問題,為每個類Vi獲取一個最好的模型入i.在認(rèn)識的過程中,對每個未知觀察序列O估計Pr(O|入i)(i=1,2,?,L)),并為每個類Vi確定產(chǎn)生O的語音?其滿足:Pr(ORi)=Pr(O|M)本文將不詳細(xì)地描述如何實現(xiàn)一個HMM識別器。感興趣的讀者可以閱讀Jelinek,Bahl,Mercer(1975)及Levinson,Rabiner,Sondhi(1983)的文章。使用隱馬爾科夫模型進(jìn)行語音識別的優(yōu)點HMM方法的優(yōu)點體現(xiàn)在兩個大的方面:(1)它的數(shù)學(xué)框架和(2)它的實現(xiàn)結(jié)構(gòu)。在數(shù)學(xué)框架方面,我們討論問題的連續(xù)統(tǒng)計方法學(xué)和它為相關(guān)問題提供的直接的解決方案。在實現(xiàn)結(jié)構(gòu)方面,我們討論它在處理不同的、復(fù)雜的語音認(rèn)知任務(wù)的靈活性和實現(xiàn)的簡單性,這些都是在實際工程領(lǐng)域中需要考慮的關(guān)鍵問題。3.1HMM方法學(xué)的連續(xù)統(tǒng)計框架3.2HMM的訓(xùn)練算法3.3模型靈活性4.進(jìn)一步考慮隱馬爾科夫定理的問題5.總結(jié)在這篇文章中,我們復(fù)習(xí)了HMM的統(tǒng)計學(xué)方法,展示了這個方法的統(tǒng)計學(xué)框架及由其帶來的靈活性和通用性,特別是在語音識別方面,以及其實現(xiàn)的簡單性,使其在工程實現(xiàn)方面顯出優(yōu)勢。我們還指出了在一般的HMM方法中值得注意的方面,希望有人能在這些方面取得進(jìn)步,這些進(jìn)步將會大大提高

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論