第十講語音信號處理第5章_第1頁
第十講語音信號處理第5章_第2頁
第十講語音信號處理第5章_第3頁
第十講語音信號處理第5章_第4頁
第十講語音信號處理第5章_第5頁
已閱讀5頁,還剩17頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

回顧5.5隱馬爾科夫模型的各種結構類型5.6隱馬爾科夫模型的一些實際問題第5章隱馬爾科夫模型5.5隱馬爾可夫模型的各種結構類型

按照HMM的狀態轉移概率矩陣(參數)分類各態歷經型或遍歷型HMM(ErgodicHMM)

:嚴格的講,所謂的遍歷模型就是經過有限步的轉移后,系統能達到任何一個狀態。即系統從一個狀態允許轉移到任何一個狀態。在某些應用系統中,常遇到的是一步遍歷模型,即經過一步跳轉,系統可達到任何一個狀態。這樣的HMM的狀態轉移矩陣中的每一個元素均為大于零的數,沒有零元素。顯然,各態歷經型HMM不符合時間順序的要求,因為它可以回到以前到過的狀態,所以只能用于不要求時間順序的語音信號處理,如:與文本無關的說話人識別等。從左到右型HMM(Left-to-RightHMM):所謂的從左到右模型,就是指隨著時間的增加,狀態的轉移只能是從左到右進行或停留在原來的狀態,而不能出現返回到以前狀態的情況,即從編號高的狀態(如第狀態)到編號低的狀態(如第n-1或n-2等等狀態)跳轉的情況(這實際上是一個時序的問題,因為按照時間順序,總是從編號低的狀態向編號高的狀態轉移)。因此,其狀態轉移矩陣具有如下的形式,它是一個上三角矩陣,而表示終止狀態的最后一行除了最后一個元素外全為零(當終止狀態沒有自轉移時,則最后一行全為零)。另外從狀態轉移結構上HMM還有其他的一些變體,如由圖5-5(c)所示的由兩條并行的從左到右模型組成的HMM,又稱為HMM網絡。它不是一般的情況,是由標準模型組合的變體,用于特殊的應用場合。這種模型較復雜,所以性能一般要比單個左右模型要好。

按照HMM的輸出概率分布(B參數)分類

離散HMM(DHMM):離散HMM就是上面一直在介紹的HMM。在這種HMM中,每一個狀態的輸出概率是按觀察字符離散分布的,每一次轉移時狀態輸出的字符,是從一個有限的離散字符集中按照一定的離散概率分布選出的。在語音信號處理中,經過特征分析后,語音信號先被分割成若干幀,每幀求取一個特征參數向量,即每幀是用一個特征參數向量表示的。此時若要使用離散HMM,則需要將語音特征參數向量的時間序列進行矢量量化,通過矢量量化使每一幀語音信號由特征參數向量表示轉變為用碼字符號表示的形式。

連續型HMM(ContinuousHMM,簡稱為CHMM):在連續HMM中,由于可以輸出的是連續值,不是有限的,所以不能用矩陣表示輸出概率,而要改用概率密度函數來表示。即用表示:在和之間觀察矢量的輸出概率。這里稱為參數的概率密度分布函數,輸出的概率可以通過計算出來。一般用高斯概率密度函數,由于是多維矢量所以要用多元高斯概率密度函數根據協方差矩陣是全協方差矩陣還是對角協方差矩陣,可以把連續HMM分成全協方差矩陣CHMM和對角協方差矩陣CHMM。另一方面,由于在實際的語音信號處理系統中,往往用一個高斯概率密度函數不足以表示語音參數的輸出概率分布,所以一種常用于語音信號處理的概率密度函數,稱之為“高斯元混合密度”,即用多個高斯概率分布的加權組合來表示輸出概率密度函數。連續混合密度HMM為多個正態分布線性相加的HMM系統,當M值較大(如M為4或5)時,系統的識別率較高,但其運算量較大。另一方面,每個模型中每個狀態的概率密度由M個正態分布函數疊加而成,它比前者有更多的自由度,因而逼近實際分布的效果更好一些,這樣識別效果也會更佳,隨著詞匯量的增加,這一優點更加突出,因而,對一些大詞匯量的與說話人無關的語音識別系統,連續混合密度HMM受到重視。半連續型HMM(Semi-ContinuousHMM:簡稱為SCHMM):離散HMM的模型參數少,對訓練數據量要求不高,而且離散HMM的計算量較少,易于實時實現,但是離散HMM的缺點是識別精度不高。連續型HMM雖然不使用離散概率分布不需要對輸入信號進行量化,從而提高了識別率,但這是以運算量的增加為代價的,而且連續型HMM尤其是連續混合密度HMM的模型參數教多,訓練數據不夠時訓練的模型精度較低。為了結合這兩種模型的優點,彌補這兩種模型的缺點。人們提出了半連續型HMM,它的輸出概率的形式如下式所示:這樣,對于離散HMM,半連續型HMM用多個正態分布線性相加作為概率密度函數彌補了離散分布的誤差;對于連續型HMM,半連續型HMM用多個各狀態共有的正態分布線性相加作為概率密度函數彌補了參數數量多,計算量大的缺陷。

其他一些特殊的HMM的形式

空轉移(NullTransitions):在這種類型的HMM中,系統的輸出是與轉移弧相聯系的,允許不產生輸出的轉移,即從一個狀態轉移到其他狀態時,無觀察符號(或矢量)輸出。這樣的轉移稱為空轉移。在連續語音識別系統中,單詞或語句的HMM都是由基元HMM的連接形成的,一般在連接時,一個基元HMM的終止狀態和一個基元HMM的初始狀態相連接,這種連接產生的轉移弧就是空轉移,如圖5-6所示。所以在大詞匯連續語音識別系統中大量使用了這種模型。

基元HMM的連接

參數捆綁(Parametertieing):參數捆綁的基本思想是在HMM的不同狀態轉移弧的參數之間建立一定的關系,使得不同狀態轉移弧使用相同的參數,其目的就是使模型中的獨立的狀態參數減少,從而使得參數估計變得較為簡單。參數捆綁是解決訓練數據不足問題的重要方法,因為模型的參數越多,則需要的訓練數據數量就越大,否則訓練出的模型精度就不夠。所以可以通過參數捆綁來降低模型參數數量,減少對訓練數據量的壓力。參數捆綁常用于兩個或多個狀態的輸出觀察向量的概率密度分布近似相同的情況,提取的語音特征參數可以認為在這些狀態轉移弧上符合相同的分布。實際上,在如圖5-7所示的連續型HMM中,一個狀態的自轉移弧和互轉移弧的參數必須進行參數捆綁,因為,對于一個訓練參數的時間序列,實際上互轉移弧上只通過了一幀的語音數據,而用一幀的語音數據估計正態分布概率密度函數是不可能的。

具有參數捆綁的連續型HMM

5.6隱馬爾可夫模型的一些實際問題

下溢問題在計算HMM的三個問題時,需要計算前向變量和后向變量,他們是通過遞歸運算求得的,例如在Viterbi算法中,計算前向變量所用的遞歸公式如下:

在上式中,和項均為小于的1數(甚至遠小于1),因此在實際運算中,較要小,隨著t的增加,就有明顯得降低,最后,該變量變得非常小,以致會超出計算動態范圍的下限,即使采用雙精度運算,當t相當大時,幾乎所有的都趨向于0,后向變量的計算也有類似的情況,這就是計算中的下溢問題。因此,在進行相關計算時,必須加入定標過程。

參數的初始化問題

從理論上而言,基于標準ML(MaximumLikelihoodMethod,簡稱為ML法)判據的Baum-Welch前后向重估訓練算法能夠給出似然函數的局部最大點,一個關鍵的問題是如何恰當地選擇HMM的初始參數,使局部最大值盡量的接近全局最優點。此外,好的初值選擇還可以保證達到收斂所需的迭代次數最小,即計算效率較高。初始概率和狀態轉移系數矩陣的初值較易確定。由迭代算法可知,如果任何一個參數的初值定為0,那么以后的迭代運算中恒為零。因此,通常對這兩組參數的初值設置為均勻分布之值或非零的隨機數,據有關文獻介紹,和的初值設置對識別率的影響不是太大。參數B的初值設置較其它兩組參數的設置更至關重要也更困難。對離散型HMM等較簡單的情況,B的設置較容易,可以采取均勻的或隨機的設置每一字符出現的概率初值。在連續分布HMM的B中,包含的參數越多越復雜,則參數初值的設置對于迭代計算的結果越至關重要,一種較簡單的B初值的設置方法是用手工對輸入的語音進行狀態劃分并統計出相應的概率分布作為初值,這適合于較小的語音單位。對于較大的語音單位,目前普遍采用分段K-均值算法,該算法的基本思想和計算流程如圖5-8所示。

用分段K-均值算法求模型的參數初值

提高HMM描述語音動態特性的能力為了保證HMM計算的有效性和訓練的可實現性,基本的HMM模型本身隱含了以下三個假設:假設1:狀態轉移概率與觀察序列無關,且時不變;假設2:狀態觀察概率密度函數與過去狀態無關;假設3:狀態觀察概率密度函數與過去觀察無關。由于語音是發音系統連續變化所產生的,具有很強的相關性,以上基本HMM的假設無疑是不合理的。因此,雖然隱馬爾可夫模型是現在最流行的語音識別模型,然而基本型的HMM采用狀態輸出獨立假設是它的一個固有的缺陷。它影響了HMM描述語音信號時間上幀間相關動態特性的能力。

為了彌補這一缺陷,最早人們采用的方法是在利用語音靜態參數的同時,增加如下式(5-63)所示的語音的動態特性參數,即以時刻t(幀)為中心,(幀)為幅度的線性回歸系數:然而這些擴展都沒有從根本上解決HMM假設的不合理性,因而其對識別性能的改進也必然是有限的。因此,基于語音段的統計建模方法正是在此基礎上于八十年代末、九十年代初應運而生了,提出許多方法,如使用線性或非線性預測器法、利用多項式回歸函數法、利用條件概率HMM的方法和復數幀段輸入HMM方法等。

利用語音幀間相關信息最直接最簡便的方法,是采用相繼的復數幀組成的特征參數矢量作為輸入特征量的方法。這種方法最初是由井手等人提出,Ostendorf等人把這一方法推廣到了連續語音識別系統。利用這一設想,可以較好地改善傳統輸出獨立HMM的缺陷,是一種有效而簡便的利用幀間相關信息的方法。HMM訓練方法的改進

現在作為HMM的模型的代表性訓練方法是被稱為Baum-Welch算法的最大似然推定法(ML法)。這種方法是以學習樣本生成的似然函數值最大為學習準則,而沒有考慮各學習類別之間的關系,所以不能保證用ML法訓練的模型產生的識別誤差率為最小,即模型間鑒別力最大。針對HMM的模型的訓練方法的問題,提出了許多改進的訓練方法。其中,基于最小分類誤差基準的學習方法(MinimumClassificationErrorMethod,以下簡稱MCE法)效果較好。

直接利用狀態持續時間分布概率的HMM系統

由Viterbi算法以及上面介紹的k-均值HMM訓練法可以知道,實際上語音信號中各個穩定段是與相應的HMM狀態相對應的。然而在標準HMM中,觀察符號(矢量

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論