用隱馬爾科夫進(jìn)行語音識別

上傳人：h*** IP屬地：天津上傳時間：2023-02-18 格式：DOCX 頁數(shù)：3 大小：14.62KB 積分：12 舉報 版權(quán)申訴

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

用隱馬爾科夫進(jìn)行語音識別

作者：B.H.Juang,L.R.Rabiner

語言語音研究所，Bell實驗室MurrayHill,NJ07974摘要：在近幾年發(fā)表的論文和大型語言語音會議上中,隱馬爾科夫定律已經(jīng)成為語音識別研究的主導(dǎo)方法。這個方法之所以如此流行就在于其固有的統(tǒng)計框架：從有限語音訓(xùn)練集數(shù)據(jù)中訓(xùn)練出模型近似參數(shù)的簡單易行；模型可根據(jù)特殊的詞匯、聲音等改變認(rèn)知系統(tǒng)的大小、種類或模型的架構(gòu)的靈活多變；實現(xiàn)整個認(rèn)知系統(tǒng)的簡單方便。在這篇解釋性的文章中,我們將講解應(yīng)用在語音識別中的非常重要的統(tǒng)計方法,并討論一系列尚未解決的原理性的和實際性的問題,因為他們很重要并對不同系統(tǒng)實現(xiàn)的性能有很大影響。關(guān)鍵詞：Baum-Welch算法，Incompletedataproblem‘Maximumaposterioridecoding;極大似然度機(jī)器語音識別已經(jīng)達(dá)到了可以投入到實際使用的水平了。大量的語音識別系統(tǒng)已經(jīng)應(yīng)用在眾多應(yīng)用領(lǐng)域如語音撥號、語音應(yīng)答、語音查詢股價、語音報價等。導(dǎo)致這些有用的技術(shù)能夠應(yīng)用于實際是因為最近技術(shù)的進(jìn)步使得語音認(rèn)知系統(tǒng)能辨別不同的說話者并達(dá)到了一定量的認(rèn)知詞匯。其中的一項進(jìn)步就是統(tǒng)計方法的使用，馬爾科夫模型就是其中一個很有趣的方法。使用HMM來進(jìn)行語音識別在過去的一段時間內(nèi)很流行。雖然報告過的大量基于HMM的語音認(rèn)知系統(tǒng)不易在此深入地討論，列出其中最重要的部分和這些系統(tǒng)的成功之處仍然是值得的。其中包括在卡內(nèi)基梅隆大學(xué)早期進(jìn)行的DragonSystem的工作，IBM公司在語音系統(tǒng)方面進(jìn)行的長期的工作，在Bell實驗室的工作，MIT林肯實驗室的工作，Philips在使用HMM進(jìn)行的整詞識別的工作，DARPA資源管理任務(wù)，及其它在該相關(guān)領(lǐng)域的眾多的工作。HMM的廣泛流行可以歸功于它簡單的算法結(jié)構(gòu)和它相對于其它語音識別方法的清晰高效性。性能，特別是精度，是評價一個語音認(rèn)知系統(tǒng)實際價值的關(guān)鍵因素。語音識別任務(wù)經(jīng)常根據(jù)它的需求，如是處理特定的還是非特定說話者，處理單個詞匯的輸入還是連續(xù)的一個句子的輸入，來進(jìn)行分類。如今，該技術(shù)能夠輕松達(dá)到對非特定說話者的精確識別，當(dāng)識別由非特定說話者說出的連續(xù)數(shù)字字串時，錯誤率僅有2-3%.更進(jìn)一步，但在非特定說話者以特定的語法限制說出連續(xù)1000個詞時，一些使用HMM的系統(tǒng)證實可以達(dá)到96%的識準(zhǔn)率。這些結(jié)果說明了自動語音識別系統(tǒng)在指定的應(yīng)用中的有用性和可用性。雖然隱馬爾科夫模型顯著地改善了當(dāng)前語音識別系統(tǒng)的性能。完全流利的、非特定說話者的語音識別仍是一個普遍存在并等待著解決的問題。例如，沒有一個系統(tǒng)能夠識別沒有限制（話題）的對話語音，也沒有一個好的方法使用借助于有限語料庫的統(tǒng)計方法去推斷語言的結(jié)構(gòu)。這篇解釋性的文章的目的是提供HMM的原理的一個概述，討論統(tǒng)計方法的作用，并指出一系列值得注意和理解的原理性和實踐性問題，以便于推動語音識別這一領(lǐng)域的發(fā)展。1．語音的度量和建模語音是不穩(wěn)定的信號量。當(dāng)我們說話時，我們的發(fā)音器官（嘴唇、下顎、舌頭，如圖1所示）調(diào)節(jié)空氣壓力并影響氣流產(chǎn)生一系列的聲音。雖然任何一個聲音的范圍會是在幾千赫茲的范圍內(nèi)，我們的關(guān)節(jié)配置（聲道形狀，舌頭移動等）經(jīng)常不能忍受每秒超過10次的動態(tài)變化。語音建模包括兩個方面：（1）以10毫秒采樣分析不同聲音的短時間的范圍屬性，（2）根據(jù)關(guān)節(jié)配置的不同，以100毫秒采樣去分析長時間聲音的變化特征。隱馬爾科夫模型統(tǒng)計方法在HMM方法發(fā)展的過程中，如下問題顯得特別有意思。首先，給出一個觀察序列O和一個模型入，我們怎么樣有效的度量模型入產(chǎn)生觀察序列O的概率，即Pr（OI入）?第二，給出觀察序列O,反過來我們怎么解決估算模型入中的參數(shù)？雖然（8）中的概率不完全依賴于q,（譯者注：（8）是在論文前出現(xiàn)的一個公式），關(guān)于導(dǎo)致觀察序列O的最可能的狀態(tài)序列q的信息在很多的應(yīng)用中都是需要的。第三個問題就是怎么有效地從觀察序列O中推出最有可能的狀態(tài)序列q.通常我們將這三個問題稱為（1）評估問題（2）估計問題（3）解釋問題。在下面的段落中，我們將描述幾個對這三個問題通用的解決方法。2．1評估問題在評估問題中主要關(guān)注的是計算的效率。如果沒有復(fù)雜度約束，可以直接簡單的直接計算出Pr（OI入）.在公式（8）中，一共有個可能的q序列。總共的計算需要2*T*個操作。計算公式（8）同時沒有指數(shù)級增長的計算量，是HMM技術(shù)實現(xiàn)的第一個挑戰(zhàn)。幸運(yùn)的是，使用著名的前向-后向算法，這個昂貴的計算開銷可以輕松的減輕。2．2估計問題給出一個觀察序列（或一個序列的集合）O?估計問題包括找到合適的模型參數(shù)使模型最可能產(chǎn)生給定的序列。在語音識別中，這經(jīng)常被稱為“訓(xùn)練”。我們用來獲取模型參數(shù)的給定序列，被成為訓(xùn)練序列，即使這兒的準(zhǔn)則是統(tǒng)計的。2．3解釋問題正如前面所說的，我們經(jīng)常對找到產(chǎn)生觀察序列O極大似然度的狀態(tài)序列感興趣。雖然HMM的概率度量定義中沒有涉及到狀態(tài)序列，在很多的應(yīng)用場合中仍然需要知道極大似然度的狀態(tài)序列。舉個例來說，如果我們使用一個詞匯模型的狀態(tài)來代表該詞匯中的特定的聲音，就有必要知道語音片段和詞的聲音之間的關(guān)系，因為單獨的語音片段為語音識別提供了有用信息。2．4使用HMM進(jìn)行語音識別HMM在語音識別中的應(yīng)用和其他傳統(tǒng)的模式匹配方法差不多。成功的使用HMM算法包括一下步驟：定義一個用來建模的L聲音類的集合。例如音素或詞匯，定義聲音類V={v1,v2,..,v3};對于每一個類，積累一定量的已知的標(biāo)記語音集合。在訓(xùn)練集合的基礎(chǔ)上，解決估計問題，為每個類Vi獲取一個最好的模型入i.在認(rèn)識的過程中，對每個未知觀察序列O估計Pr（O|入i）（i=1,2,?,L）），并為每個類Vi確定產(chǎn)生O的語音?其滿足：Pr（ORi）=Pr（O|M）本文將不詳細(xì)地描述如何實現(xiàn)一個HMM識別器。感興趣的讀者可以閱讀Jelinek,Bahl,Mercer（1975）及Levinson,Rabiner,Sondhi（1983）的文章。使用隱馬爾科夫模型進(jìn)行語音識別的優(yōu)點HMM方法的優(yōu)點體現(xiàn)在兩個大的方面：（1）它的數(shù)學(xué)框架和（2）它的實現(xiàn)結(jié)構(gòu)。在數(shù)學(xué)框架方面，我們討論問題的連續(xù)統(tǒng)計方法學(xué)和它為相關(guān)問題提供的直接的解決方案。在實現(xiàn)結(jié)構(gòu)方面，我們討論它在處理不同的、復(fù)雜的語音認(rèn)知任務(wù)的靈活性和實現(xiàn)的簡單性，這些都是在實際工程領(lǐng)域中需要考慮的關(guān)鍵問題。3．1HMM方法學(xué)的連續(xù)統(tǒng)計框架3．2HMM的訓(xùn)練算法3．3模型靈活性4．進(jìn)一步考慮隱馬爾科夫定理的問題5．總結(jié)在這篇文章中，我們復(fù)習(xí)了HMM的統(tǒng)計學(xué)方法，展示了這個方法的統(tǒng)計學(xué)框架及由其帶來的靈活性和通用性，特別是在語音識別方面，以及其實現(xiàn)的簡單性，使其在工程實現(xiàn)方面顯出優(yōu)勢。我們還指出了在一般的HMM方法中值得注意的方面，希望有人能在這些方面取得進(jìn)步，這些進(jìn)步將會大大提高

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

老太爷的乳妓h开裆裤,久久久久久精品国产三级非禁歌 ,久久久久久久99精品国产片,免费观看交性大片

用隱馬爾科夫進(jìn)行語音識別

文檔簡介

溫馨提示

最新文檔

評論

老太爷的乳妓h开裆裤,久久久久久精品国产三级非禁歌 ,久久久久久久99精品国产片,免费观看交性大片

用隱馬爾科夫進(jìn)行語音識別

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔