


下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
用隱馬爾科夫進(jìn)行語音識別
作者:B.H.Juang,L.R.Rabiner
語言語音研究所,Bell實驗室MurrayHill,NJ07974摘要:在近幾年發(fā)表的論文和大型語言語音會議上中,隱馬爾科夫定律已經(jīng)成為語音識別研究的主導(dǎo)方法。這個方法之所以如此流行就在于其固有的統(tǒng)計框架:從有限語音訓(xùn)練集數(shù)據(jù)中訓(xùn)練出模型近似參數(shù)的簡單易行;模型可根據(jù)特殊的詞匯、聲音等改變認(rèn)知系統(tǒng)的大小、種類或模型的架構(gòu)的靈活多變;實現(xiàn)整個認(rèn)知系統(tǒng)的簡單方便。在這篇解釋性的文章中,我們將講解應(yīng)用在語音識別中的非常重要的統(tǒng)計方法,并討論一系列尚未解決的原理性的和實際性的問題,因為他們很重要并對不同系統(tǒng)實現(xiàn)的性能有很大影響。關(guān)鍵詞:Baum-Welch算法,Incompletedataproblem‘Maximumaposterioridecoding;極大似然度機(jī)器語音識別已經(jīng)達(dá)到了可以投入到實際使用的水平了。大量的語音識別系統(tǒng)已經(jīng)應(yīng)用在眾多應(yīng)用領(lǐng)域如語音撥號、語音應(yīng)答、語音查詢股價、語音報價等。導(dǎo)致這些有用的技術(shù)能夠應(yīng)用于實際是因為最近技術(shù)的進(jìn)步使得語音認(rèn)知系統(tǒng)能辨別不同的說話者并達(dá)到了一定量的認(rèn)知詞匯。其中的一項進(jìn)步就是統(tǒng)計方法的使用,馬爾科夫模型就是其中一個很有趣的方法。使用HMM來進(jìn)行語音識別在過去的一段時間內(nèi)很流行。雖然報告過的大量基于HMM的語音認(rèn)知系統(tǒng)不易在此深入地討論,列出其中最重要的部分和這些系統(tǒng)的成功之處仍然是值得的。其中包括在卡內(nèi)基梅隆大學(xué)早期進(jìn)行的DragonSystem的工作,IBM公司在語音系統(tǒng)方面進(jìn)行的長期的工作,在Bell實驗室的工作,MIT林肯實驗室的工作,Philips在使用HMM進(jìn)行的整詞識別的工作,DARPA資源管理任務(wù),及其它在該相關(guān)領(lǐng)域的眾多的工作。HMM的廣泛流行可以歸功于它簡單的算法結(jié)構(gòu)和它相對于其它語音識別方法的清晰高效性。性能,特別是精度,是評價一個語音認(rèn)知系統(tǒng)實際價值的關(guān)鍵因素。語音識別任務(wù)經(jīng)常根據(jù)它的需求,如是處理特定的還是非特定說話者,處理單個詞匯的輸入還是連續(xù)的一個句子的輸入,來進(jìn)行分類。如今,該技術(shù)能夠輕松達(dá)到對非特定說話者的精確識別,當(dāng)識別由非特定說話者說出的連續(xù)數(shù)字字串時,錯誤率僅有2-3%.更進(jìn)一步,但在非特定說話者以特定的語法限制說出連續(xù)1000個詞時,一些使用HMM的系統(tǒng)證實可以達(dá)到96%的識準(zhǔn)率。這些結(jié)果說明了自動語音識別系統(tǒng)在指定的應(yīng)用中的有用性和可用性。雖然隱馬爾科夫模型顯著地改善了當(dāng)前語音識別系統(tǒng)的性能。完全流利的、非特定說話者的語音識別仍是一個普遍存在并等待著解決的問題。例如,沒有一個系統(tǒng)能夠識別沒有限制(話題)的對話語音,也沒有一個好的方法使用借助于有限語料庫的統(tǒng)計方法去推斷語言的結(jié)構(gòu)。這篇解釋性的文章的目的是提供HMM的原理的一個概述,討論統(tǒng)計方法的作用,并指出一系列值得注意和理解的原理性和實踐性問題,以便于推動語音識別這一領(lǐng)域的發(fā)展。1.語音的度量和建模語音是不穩(wěn)定的信號量。當(dāng)我們說話時,我們的發(fā)音器官(嘴唇、下顎、舌頭,如圖1所示)調(diào)節(jié)空氣壓力并影響氣流產(chǎn)生一系列的聲音。雖然任何一個聲音的范圍會是在幾千赫茲的范圍內(nèi),我們的關(guān)節(jié)配置(聲道形狀,舌頭移動等)經(jīng)常不能忍受每秒超過10次的動態(tài)變化。語音建模包括兩個方面:(1)以10毫秒采樣分析不同聲音的短時間的范圍屬性,(2)根據(jù)關(guān)節(jié)配置的不同,以100毫秒采樣去分析長時間聲音的變化特征。隱馬爾科夫模型統(tǒng)計方法在HMM方法發(fā)展的過程中,如下問題顯得特別有意思。首先,給出一個觀察序列O和一個模型入,我們怎么樣有效的度量模型入產(chǎn)生觀察序列O的概率,即Pr(OI入)?第二,給出觀察序列O,反過來我們怎么解決估算模型入中的參數(shù)?雖然(8)中的概率不完全依賴于q,(譯者注:(8)是在論文前出現(xiàn)的一個公式),關(guān)于導(dǎo)致觀察序列O的最可能的狀態(tài)序列q的信息在很多的應(yīng)用中都是需要的。第三個問題就是怎么有效地從觀察序列O中推出最有可能的狀態(tài)序列q.通常我們將這三個問題稱為(1)評估問題(2)估計問題(3)解釋問題。在下面的段落中,我們將描述幾個對這三個問題通用的解決方法。2.1評估問題在評估問題中主要關(guān)注的是計算的效率。如果沒有復(fù)雜度約束,可以直接簡單的直接計算出Pr(OI入).在公式(8)中,一共有個可能的q序列。總共的計算需要2*T*個操作。計算公式(8)同時沒有指數(shù)級增長的計算量,是HMM技術(shù)實現(xiàn)的第一個挑戰(zhàn)。幸運(yùn)的是,使用著名的前向-后向算法,這個昂貴的計算開銷可以輕松的減輕。2.2估計問題給出一個觀察序列(或一個序列的集合)O?估計問題包括找到合適的模型參數(shù)使模型最可能產(chǎn)生給定的序列。在語音識別中,這經(jīng)常被稱為“訓(xùn)練”。我們用來獲取模型參數(shù)的給定序列,被成為訓(xùn)練序列,即使這兒的準(zhǔn)則是統(tǒng)計的。2.3解釋問題正如前面所說的,我們經(jīng)常對找到產(chǎn)生觀察序列O極大似然度的狀態(tài)序列感興趣。雖然HMM的概率度量定義中沒有涉及到狀態(tài)序列,在很多的應(yīng)用場合中仍然需要知道極大似然度的狀態(tài)序列。舉個例來說,如果我們使用一個詞匯模型的狀態(tài)來代表該詞匯中的特定的聲音,就有必要知道語音片段和詞的聲音之間的關(guān)系,因為單獨的語音片段為語音識別提供了有用信息。2.4使用HMM進(jìn)行語音識別HMM在語音識別中的應(yīng)用和其他傳統(tǒng)的模式匹配方法差不多。成功的使用HMM算法包括一下步驟:定義一個用來建模的L聲音類的集合。例如音素或詞匯,定義聲音類V={v1,v2,..,v3};對于每一個類,積累一定量的已知的標(biāo)記語音集合。在訓(xùn)練集合的基礎(chǔ)上,解決估計問題,為每個類Vi獲取一個最好的模型入i.在認(rèn)識的過程中,對每個未知觀察序列O估計Pr(O|入i)(i=1,2,?,L)),并為每個類Vi確定產(chǎn)生O的語音?其滿足:Pr(ORi)=Pr(O|M)本文將不詳細(xì)地描述如何實現(xiàn)一個HMM識別器。感興趣的讀者可以閱讀Jelinek,Bahl,Mercer(1975)及Levinson,Rabiner,Sondhi(1983)的文章。使用隱馬爾科夫模型進(jìn)行語音識別的優(yōu)點HMM方法的優(yōu)點體現(xiàn)在兩個大的方面:(1)它的數(shù)學(xué)框架和(2)它的實現(xiàn)結(jié)構(gòu)。在數(shù)學(xué)框架方面,我們討論問題的連續(xù)統(tǒng)計方法學(xué)和它為相關(guān)問題提供的直接的解決方案。在實現(xiàn)結(jié)構(gòu)方面,我們討論它在處理不同的、復(fù)雜的語音認(rèn)知任務(wù)的靈活性和實現(xiàn)的簡單性,這些都是在實際工程領(lǐng)域中需要考慮的關(guān)鍵問題。3.1HMM方法學(xué)的連續(xù)統(tǒng)計框架3.2HMM的訓(xùn)練算法3.3模型靈活性4.進(jìn)一步考慮隱馬爾科夫定理的問題5.總結(jié)在這篇文章中,我們復(fù)習(xí)了HMM的統(tǒng)計學(xué)方法,展示了這個方法的統(tǒng)計學(xué)框架及由其帶來的靈活性和通用性,特別是在語音識別方面,以及其實現(xiàn)的簡單性,使其在工程實現(xiàn)方面顯出優(yōu)勢。我們還指出了在一般的HMM方法中值得注意的方面,希望有人能在這些方面取得進(jìn)步,這些進(jìn)步將會大大提高
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 深入探討園藝師考試的多樣性試題及答案
- 存亡選擇測試題及答案解析
- 各高校輔導(dǎo)員綜合素質(zhì)測評試題及答案
- 從業(yè)者在農(nóng)業(yè)中的作用與試題及答案
- 學(xué)生心理健康促進(jìn)的輔導(dǎo)員方法與試題及答案
- 各高校輔導(dǎo)員招聘考試的學(xué)生行為分析要求與試題及答案
- 2024年福建事業(yè)單位考試如何有效結(jié)合生活實踐與理論學(xué)習(xí)的具體方案試題及答案
- 全國粵教版信息技術(shù)七年級下冊第三章第四節(jié)《活動綜合:機(jī)器人總動員》教學(xué)設(shè)計
- 2024年福建事業(yè)單位考試的創(chuàng)新思維與試題及答案
- 2024年高校輔導(dǎo)員招聘挑戰(zhàn)應(yīng)對試題及答案
- 湖南省長沙市麓山國際實驗學(xué)校2024-2025學(xué)年高二下學(xué)期第一次學(xué)情檢測化學(xué)試卷(圖片版含答案)
- 2025年高考作文備考之熱點素材解讀及相關(guān)題目:高中雙休
- 2025屆八省八校部分重點中學(xué)高三下學(xué)期3月聯(lián)合測評(T8聯(lián)考)數(shù)學(xué)試題
- 行政管理本科畢業(yè)論文-中國逆城市化現(xiàn)象的成因及啟示
- 二年級閱讀課教案
- xx地塊房地產(chǎn)項目可行性研究報告(參考)
- 統(tǒng)編版2024新版七年級下冊德道與法治第一單元《珍惜青春時光》復(fù)習(xí)課件
- 物理-甘肅省2025年高三月考試卷(3月)(甘肅一診)試題和答案
- 2025年沈陽北軟信息職業(yè)技術(shù)學(xué)院單招職業(yè)技能考試題庫完美版
- 中醫(yī)醫(yī)生筆試試題及答案
- 2025年湖北漳富投資集團(tuán)有限公司招聘筆試參考題庫含答案解析
評論
0/150
提交評論