人工智能結課論文-語音助手論文_第1頁
人工智能結課論文-語音助手論文_第2頁
人工智能結課論文-語音助手論文_第3頁
人工智能結課論文-語音助手論文_第4頁
人工智能結課論文-語音助手論文_第5頁
已閱讀5頁,還剩12頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

天津財經大學《人工智能》結課論文題目:語音助手論文院系名稱:理工學院信科系專業班級:計科1301學號姓名:任課老師:2016年6月2日簡介與機器進行語音交流,讓機器明白你說什么,這是人們長期以來夢寐以求的事情。中國物聯網校企聯盟形象得把語音識別[1]

比做為“機器的聽覺系統”。語音識別技術就是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的高技術。語音識別技術主要包括特征提取技術、模式匹配準則及模型訓練技術三個方面。語音識別技術車聯網也得到了充分的引用,例如在翼卡車聯網中,只需按一鍵通客服人員口述即可設置目的地直接導航,安全、便捷。發展史1952年貝爾研究所Davis等人研究成功了世界上第一個能識別10個英文數字發音的實驗系統。1960年英國的Denes等人研究成功了第一個計算機語音識別系統。大規模的語音識別[2]

研究是在進入了70年代以后,在小詞匯量、孤立詞的識別方面取得了實質性的進展。進入80年代以后,研究的重點逐漸轉向大詞匯量、非特定人連續語音識別。在研究思路上也發生了重大變化,即由傳統的基于標準模板匹配的技術思路開始轉向基于統計模型(HMM)的技術思路。此外,再次提出了將神經網絡技術引入語音識別問題的技術思路。進入90年代以后,在語音識別的系統框架方面并沒有什么重大突破。但是,在語音識別技術的應用及產品化方面出現了很大的進展。DARPA(DefenseAdvancedResearchProjectsAgency)是在70年代由美國國防部遠景研究計劃局資助的一項10年計劃,其旨在支持語言理解系統的研究開發工作。到了80年代,美國國防部遠景研究計劃局又資助了一項為期10年的DARPA戰略計劃,其中包括噪聲下的語音識別和會話(口語)識別系統,識別任務設定為“(1000單詞)連續語音數據庫管理”。到了90年代,這一DARPA計劃仍在持續進行中。其研究重點已轉向識別裝置中的自然語言處理部分,識別任務設定為“航空旅行信息檢索”。日本也在1981年的第五代計算機計劃中提出了有關語音識別輸入-輸出自然語言的宏偉目標,雖然沒能實現預期目標,但是有關語音識別技術的研究有了大幅度的加強和進展。1987年起,日本又擬出新的國家項目---高級人機口語接口和自動電話翻譯系統。中國發展中國的語音識別研究起始于1958年,由中國科學院聲學所利用電子管電路識別10個元音。直至1973年才由中國科學院聲學所開始計算機語音識別。由于當時條件的限制,中國的語音識別研究工作一直處于緩慢發展的階段。進入80年代以后,隨著計算機應用技術在中國逐漸普及和應用以及數字信號技術的進一步發展,國內許多單位具備了研究語音技術的基本條件。與此同時,國際上語音識別技術在經過了多年的沉寂之后重又成為研究的熱點,發展迅速。就在這種形式下,國內許多單位紛紛投入到這項研究工作中去。1986年3月中國高科技發展計劃(863計劃)啟動,語音識別作為智能計算機系統研究的一個重要組成部分而被專門列為研究課題。在863計劃的支持下,中國開始了有組織的語音識別技術的研究,并決定了每隔兩年召開一次語音識別的專題會議。從此中國的語音識別技術進入了一個前所未有的發展階段。識別模式這一時期的語音識別方法基本上是采用傳統的模式識別策略。其中以蘇聯的Velichko和Zagoruyko、日本的迫江和千葉,以及當時在美國的板倉等人的研究工作最具有代表性。·蘇聯的研究為模式識別應用于語音識別這一領域奠定了基礎;·日本的研究則展示了如何利用動態規劃技術在待識語音模式與標準語音模式之間進行非線性時間匹配的方法;·板倉的研究提出了如何將線性預測分析技術(LPC)加以擴展,使之用于語音信號的特征抽取的方法。數據庫在語音識別的研究發展過程中,相關研究人員根據不同語言的發音特點,設計和制作了以漢語(包括不同方言)、英語等各類語言的語音數據庫,這些語音數據庫可以為國內外有關的科研單位和大學進行漢語連續語音識別算法研究、系統設計、及產業化工作提供充分、科學的訓練語音樣本。例如:MITMedialabSpeechDataset(麻省理工學院媒體實驗室語音數據集)、PitchandVoicingEstimatesforAurora2(Aurora2語音庫的基因周期和聲調估計)、Congressionalspeechdata(國會語音數據)、MandarinSpeechFrameData(普通話語音幀數據)、用于測試盲源分離算法的語音數據等。主要問題語音識別主要有以下五個問題:⒈對自然語言的識別和理解。首先必須將連續的講話分解為詞、音素等單位,其次要建立一個理解語義的規則。⒉語音信息量大。語音模式不僅對不同的說話人不同,對同一說話人也是不同的,例如,一個說話人在隨意說話和認真說話時的語音信息是不同的。一個人的說話方式隨著時間變化。⒊語音的模糊性。說話者在講話時,不同的詞可能聽起來是相似的。這在英語和漢語中常見。⒋單個字母或詞、字的語音特性受上下文的影響,以致改變了重音、音調、音量和發音速度等。⒌環境噪聲和干擾對語音識別有嚴重影響,致使識別率低。前端處理前端處理是指在特征提取之前,先對原始語音進行處理,部分消除噪聲和不同說話人帶來的影響,使處理后的信號更能反映語音的本質特征。最常用的前端處理有端點檢測和語音增強。端點檢測是指在語音信號中將語音和非語音信號時段區分開來,準確地確定出語音信號的起始點。經過端點檢測后,后續處理就可以只對語音信號進行,這對提高模型的精確度和識別正確率有重要作用。語音增強的主要任務就是消除環境噪聲對語音的影響。目前通用的方法是采用維納濾波,該方法在噪聲較大的情況下效果好于其它濾波器。聲學模型語音識別系統的模型通常由聲學模型和語言模型兩部分組成,分別對應于語音到音節概率的計算和音節到字概率的計算。本節和下一節分別介紹聲學模型和語言模型方面的技術。HMM聲學建模:馬爾可夫模型的概念是一個離散時域有限狀態自動機,隱馬爾可夫模型HMM是指這一馬爾可夫模型的內部狀態外界不可見,外界只能看到各個時刻的輸出值。對語音識別系統,輸出值通常就是從各個幀計算而得的聲學特征。用HMM刻畫語音信號需作出兩個假設,一是內部狀態的轉移只與上一狀態有關,另一是輸出值只與當前狀態(或當前的狀態轉移)有關,這兩個假設大大降低了模型的復雜度。HMM的打分、解碼和訓練相應的算法是前向算法、Viterbi算法和前向后向算法。語音識別中使用HMM通常是用從左向右單向、帶自環、帶跨越的拓撲結構來對識別基元建模,一個音素就是一個三至五狀態的HMM,一個詞就是構成詞的多個音素的HMM串行起來構成的HMM,而連續語音識別的整個模型就是詞和靜音組合起來的HMM。上下文相關建模:協同發音,指的是一個音受前后相鄰音的影響而發生變化,從發聲機理上看就是人的發聲器官在一個音轉向另一個音時其特性只能漸變,從而使得后一個音的頻譜與其他條件下的頻譜產生差異。上下文相關建模方法在建模時考慮了這一影響,從而使模型能更準確地描述語音,只考慮前一音的影響的稱為Bi-Phone,考慮前一音和后一音的影響的稱為Tri-Phone。英語的上下文相關建模通常以音素為基元,由于有些音素對其后音素的影響是相似的,因而可以通過音素解碼狀態的聚類進行模型參數的共享。聚類的結果稱為senone。決策樹用來實現高效的triphone對senone的對應,通過回答一系列前后音所屬類別(元/輔音、清/濁音等等)的問題,最終確定其HMM狀態應使用哪個senone。分類回歸樹CART模型用以進行詞到音素的發音標注。語言模型語言模型主要分為規則模型和統計模型兩種。統計語言模型是用概率統計的方法來揭示語言單位內在的統計規律,其中N-Gram簡單有效,被廣泛使用。N-Gram:該模型基于這樣一種假設,第n個詞的出現只與前面N-1個詞相關,而與其它任何詞都不相關,整句的概率就是各個詞出現概率的乘積。這些概率可以通過直接從語料中統計N個詞同時出現的次數得到。常用的是二元的Bi-Gram和三元的Tri-Gram。語言模型的性能通常用交叉熵和復雜度(Perplexity)來衡量。交叉熵的意義是用該模型對文本識別的難度,或者從壓縮的角度來看,每個詞平均要用幾個位來編碼。復雜度的意義是用該模型表示這一文本平均的分支數,其倒數可視為每個詞的平均概率。平滑是指對沒觀察到的N元組合賦予一個概率值,以保證詞序列總能通過語言模型得到一個概率值。通常使用的平滑技術有圖靈估計、刪除插值平滑、Katz平滑和Kneser-Ney平滑。搜索連續語音識別中的搜索,就是尋找一個詞模型序列以描述輸入語音信號,從而得到詞解碼序列。搜索所依據的是對公式中的聲學模型打分和語言模型打分。在實際使用中,往往要依據經驗給語言模型加上一個高權重,并設置一個長詞懲罰分數。Viterbi:基于動態規劃的Viterbi算法在每個時間點上的各個狀態,計算解碼狀態序列對觀察序列的后驗概率,保留概率最大的路徑,并在每個節點記錄下相應的狀態信息以便最后反向獲取詞解碼序列。Viterbi算法在不喪失最優解的條件下,同時解決了連續語音識別中HMM模型狀態序列與聲學觀察序列的非線性時間對準、詞邊界檢測和詞的識別,從而使這一算法成為語音識別搜索的基本策略。由于語音識別對當前時間點之后的情況無法預測,基于目標函數的啟發式剪枝難以應用。由于Viterbi算法的時齊特性,同一時刻的各條路徑對應于同樣的觀察序列,因而具有可比性,束Beam搜索在每一時刻只保留概率最大的前若干條路徑,大幅度的剪枝提高了搜索的效率。這一時齊Viterbi-Beam算法是當前語音識別搜索中最有效的算法。N-best搜索和多遍搜索:為在搜索中利用各種知識源,通常要進行多遍搜索,第一遍使用代價低的知識源,產生一個候選列表或詞候選網格,在此基礎上進行使用代價高的知識源的第二遍搜索得到最佳路徑。此前介紹的知識源有聲學模型、語言模型和音標詞典,這些可以用于第一遍搜索。為實現更高級的語音識別或口語理解,往往要利用一些代價更高的知識源,如4階或5階的N-Gram、4階或更高的上下文相關模型、詞間相關模型、分段模型或語法分析,進行重新打分。最新的實時大詞表連續語音識別系統許多都使用這種多遍搜索策略。N-best搜索產生一個候選列表,在每個節點要保留N條最好的路徑,會使計算復雜度增加到N倍。簡化的做法是只保留每個節點的若干詞候選,但可能丟失次優候選。一個折衷辦法是只考慮兩個詞長的路徑,保留k條。詞候選網格以一種更緊湊的方式給出多候選,對N-best搜索算法作相應改動后可以得到生成候選網格的算法。前向后向搜索算法是一個應用多遍搜索的例子。當應用簡單知識源進行了前向的Viterbi搜索后,搜索過程中得到的前向概率恰恰可以用在后向搜索的目標函數的計算中,因而可以使用啟發式的A算法進行后向搜索,經濟地搜索出N條候選。系統實現語音識別系統選擇識別基元的要求是,有準確的定義,能得到足夠數據進行訓練,具有一般性。英語通常采用上下文相關的音素建模,漢語的協同發音不如英語嚴重,可以采用音節建模。系統所需的訓練數據大小與模型復雜度有關。模型設計得過于復雜以至于超出了所提供的訓練數據的能力,會使得性能急劇下降。聽寫機:大詞匯量、非特定人、連續語音識別系統通常稱為聽寫機。其架構就是建立在前述聲學模型和語言模型基礎上的HMM拓撲結構。訓練時對每個基元用前向后向算法獲得模型參數,識別時,將基元串接成詞,詞間加上靜音模型并引入語言模型作為詞間轉移概率,形成循環結構,用Viterbi算法進行解碼。針對漢語易于分割的特點,先進行分割再對每一段進行解碼,是用以提高效率的一個簡化方法。對話系統:用于實現人機口語對話的系統稱為對話系統。受目前技術所限,對話系統往往是面向一個狹窄領域、詞匯量有限的系統,其題材有旅游查詢、訂票、數據庫檢索等等。其前端是一個語音識別器,識別產生的N-best候選或詞候選網格,由語法分析器進行分析獲取語義信息,再由對話管理器確定應答信息,由語音合成器輸出。由于目前的系統往往詞匯量有限,也可以用提取關鍵詞的方法來獲取語義信息。性能指標指標語音識別系統的性能指標主要有四項。①詞匯表范圍:這是指機器能識別的單詞或詞組的范圍,如不作任何限制,則可認為詞匯表范圍是無限的。②說話人限制:是僅能識別指定發話者的語音,還是對任何發話人的語音都能識別。③訓練要求:使用前要不要訓練,即是否讓機器先“聽”一下給定的語音,以及訓練次數的多少。④正確識別率:平均正確識別的百分數,它與前面三個指標有關。小結以上介紹了實現語音識別系統的各個方面的技術。這些技術在實際使用中達到了較好的效果,但如何克服影響語音的各種因素還需要更深入地分析。目前聽寫機系統還不能完全實用化以取代鍵盤的輸入,但識別技術的成熟同時推動了更高層次的語音理解技術的研究。由于英語與漢語有著不同的特點,針對英語提出的技術在漢語中如何使用也是一個重要的研究課題,而四聲等漢語本身特有的問題也有待解決。一.如何找到可能性最大的隱藏狀態序列?通常我們都有一個特定的

HMM,然后根據一個可觀察狀態序列去找到最可能生成這個可觀察狀態序列的隱藏狀態序列。1.窮舉搜索我們可以在下圖中看到每個隱藏狀態和可觀察狀態的關系。通過計算所有可能的隱藏序列的概率,我們可以找到一個可能性最大的隱藏序列,這個可能性最大的隱藏序列最大化了Pr(觀察序列|隱藏狀態集)。比如說,對于上圖中的可觀察序列(drydampsoggy),最可能的隱藏序列就是下面這些概率中最大的:Pr(dry,damp,soggy|sunny,sunny,sunny),……,Pr(dry,damp,soggy|rainy,rainy,rainy)這個方法是可行的,但是計算代價很高。和前向算法一樣,我們可以利用轉移概率在時間上的不變性來降低計算的復雜度。2.使用遞歸降低復雜度在給定了一個可觀察序列和HMM的情況下,我們可以考慮遞歸的來尋找最可能的隱藏序列。我們可以先定義一個部分概率δ,即到達某個中間狀態的概率。接下來我們將討論如何計算t=1和t=n(n>1)的部分概率。注意這里的部分概率和前向算法中的部分概率是不一樣的,這里的部分概率表示的是在t時刻最可能到達某個狀態的一條路徑的概率,而不是所有概率之和。1)部分概率和部分最優路徑考慮下面這個圖以及可觀察序列(dry,damp,soggy)的一階轉移對于每一個中間狀態和終止狀態(t=3)都有一個最可能的路徑。比如說,在t=3時刻的三個狀態都有一個如下的最可能的路徑:我們可以稱這些路徑為部分最優路徑。這些部分最優路徑都有一個概率,也就是部分概率

δ。和前向算法中的部分概率不一樣,這里的概率只是一個最可能路徑的概率,而不是所有路徑的概率和。我們可以用δ(i,t)來表示在t時刻,到狀態i的所有可能的序列(路徑)中概率最大的序列的概率,部分最優路徑就是達到這個最大概率的路徑,對于每一個時刻的每一個狀態都有這樣一個概率和部分最優路徑。最后,我們通過計算t=T時刻的每一個狀態的最大概率和部分最優路徑,選擇其中概率最大的狀態和它的部分最優路徑來得到全局的最優路徑。2)計算t=1時刻的部分概率當t=1時刻的時候,到達某個狀態最大可能的路徑還不存在,但是我們可以直接使用在t=1時刻某個狀態的概率和這個狀態到可觀察序列k1

的轉移概率:3)計算t>1時刻的部分概率接下來我們可以根據t-1時刻的部分概率來求t時刻的部分概率我們可以計算所有到狀態X的路徑的概率,找到其中最可能的路徑,也就是局部最優路徑。注意到這里,到達X的路徑必然會經過t-1時刻的A、B和C,所以我們可以利用之前的結果。達到X的最可能的路徑就是下面三個之一:(狀態序列),...,A,X(狀態序列),...,B,X(狀態序列),...,C,X我們需要做的就是找到以AX、BX和CX結尾的路徑中概率最大的那個。根據一階馬爾科夫的假設,一個狀態的發生之和之前的一個狀態有關系,所以X在某個序列的最后發生的概率只依賴于其之前的一個狀態:Pr(到達A的最優路徑).Pr(X|A).Pr(觀察狀態|X)有個了這個公式,我們就可以利用t-1時刻的結果和狀態轉移矩陣和混淆矩陣的數據:將上面這個表達式推廣一下,就可以得到t時刻可觀察狀態為kt

的第i個狀態的最大部分概率的計算公式:其中aji

表示從狀態j轉移到狀態i的概率,bikt

表示狀態i被觀察成kt

的概率。4)后向指針考慮下圖在每一個中間狀態和結束狀態都有一個部分最優概率

δ(i,t)。但是我們的目的是找到最可能的隱藏狀態序列,所以我們需要一個方法去記住部分最優路徑的每一個節點。考慮到要計算t時刻的部分概率,我們只需要知道t-1時刻的部分概率,所以我們只需要記錄那個導致了t時刻最大部分概率的的狀態,也就是說,在任意時刻,系統都必須處在一個能在下一時刻產生最大部分概率的狀態。如下圖所示:我們可以利用一個后向指針φ

來記錄導致某個狀態最大局部概率的前一個狀態,即這里argmax表示能最大化后面公式的j值,同樣可以發現這個公式和t-1時刻的部分概率和轉移概率有關,因為后向指針只是為了找到“我從哪里來”,這個問題和可觀察狀態沒有關系,所以這里不需要再乘上混淆矩陣因子。全局的行為如下圖所示:5)優點使用

viterbi

算法對一個可觀察狀態進行解碼有兩個重要的優點:a)通過使用遞歸來減少復雜度,這點和之前的前向算法是一樣的b)可以根據可觀察序列找到最優的隱藏序列,這個的計算公式是:其中

這里就是一個從左往右翻譯的過程,通過前面的翻譯結果得到后面的結果,起始點是初始向量π。3.補充但在序列某個地方有噪聲干擾的時候,某些方法可能會和正確答案相差的較遠。但是

Viterbi

算法會查看整個序列來決定最可能的終止狀態,然后通過后向指針來找到之前的狀態,這對忽略孤立的噪聲非常有用。Viterbi

算法提供了一個根據可觀察序列計算隱藏序列的很高效的方法,它利用遞歸來降低計算復雜度,并且使用之前全部的序列來做判斷,可以很好的容忍噪聲。在計算的過程中,這個算法計算每一個時刻每一個狀態的部分概率,并且使用一個后向指針來記錄達到當前狀態的最大可能的上一個狀態。最后,最可能的終止狀態就是隱藏序列的最后一個狀態,然后通過后向指針來查找整個序列的全部狀態。(三)根據觀察到的序列集來找到一個最有可能的HMM。

在很多實際的情況下,HMM

不能被直接的判斷,這就變成了一個學習問題,因為對于給定的可觀察狀態序列O來說,沒有任何一種方法可以精確地找到一組最優的

HMM

參數

λ

使P(O|λ)最大,于是人們尋求使其局部最優的解決辦法,而前向后向算法(也稱為Baum-Welch算法)就成了

HMM學習問題的一個近似的解決方法。前向后向算法首先對于

HMM

的參數進行一個初始的估計,但這個很可能是一個錯誤的猜測,然后通過對于給定的數據評估這些參數

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論