




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
語音識別概述70年代語音識別領域取得了突破。在理論上,LP技術得到進一步發展,動態時間規整技術(DTW)的基本成熟,特別是提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。在實踐上,小詞匯量孤立詞的識別方面取得了實質性的進展,實現了基于線性預測倒譜和DTW技術的特定人孤立語音識別系統。這一時期的語音識別方法基本上是采用傳統的模式識別策略。80年代語音識別研究進一步走向深入,其顯著特征是HMM模型和人工神經元網絡(ANN)在語音識別中的成功應用。HMM模型的廣泛應用應歸功于AT&TBel實驗室的Rabiner等科學家的努力,他們把HMM純數學模型工程化,從而為更多研究者了解和認識。研究的重點逐漸轉向大詞匯量、非特定人連續語音識別。90年代,隨著多媒體時代的來臨,在語音識別技術的應用及產品化方面出現了很大的進展。許多發達國家如美國、日本、韓國以及IBM,Apple,AT&T,NTT等著名公司都為語音識別系統的實用化開發投以巨資。語音識別技術實用化進程大大加速,并出現了許多實用化產品。
IBM公司率先推出的漢語ViaVoice語音識別系統,帶有一個32,000詞的基本詞匯表,可以擴展到65,000詞,平均識別率可以達到95%,可以識別上海話、廣東話和四川話等地方口音,是目前具有代表性的漢語連續語音識別系統。第1頁/共33頁12021/10/10星期日語音識別概述21世紀語音識別技術的應用及產品化方面進一步發展。在語音識別產品方面,各大公司紛紛推出自己產品。目前世界上最先進的語音識別軟件,既不是微軟生產的,也非IBM制造,它的名字叫做NaturallySpeaking,出自于NuanceCommunications公司。NaturallySpeaking己經得到了大多數用戶的認可。用戶對著麥克風說話,屏幕上就顯示出說話的內容,很容易識別和糾正錯誤.久而久之,該軟件就會適應用戶的說話風格。我國語音識別研究工作起步于五十年代,但近年來發展很快,研究水平也從實驗室逐步走向實用。從1987年開始執行國家863計劃后,國家863智能計算機專家組為語音識別技術研究專門立項,每兩年滾動一次。我國語音識別技術的研究水平己經基本上與國外同步,在漢語語音識別技術上還有自己的特點與優勢,并達到國際先進水平。其中,具有代表性的研究單位是清華大學電子工程系與中科院自動化研究所模式識別國家重點實驗室。
由清華大學電子工程系語音技術與專用芯片設計課題組研發的非特定人漢語數碼串連續語音識別系統,識別精度達到了94.8%(不定長數字串)和96.8%(定長數字串).第2頁/共33頁22021/10/10星期日語音識別概述語音識別系統分類:
從說話者與識別系統的相關性分:(1)特定人語音識別系統:僅考慮對于專人的話音進行識別,與說話的語種沒有關系;(2)非特定人語音識別系統:識別的語音與人無關,通常要用大量不同人的語音數據庫對識別系統進行學習,識別的語言取決于采用的訓練語音庫;(3)多人的識別系統:通常能識別一組人的語音該系統通常要求對該組人的語音進行學習,通常可以識別三到五個人的語音。從說話的方式分:(1)孤立詞語音識別系統:其輸入系統要求輸入每個詞后要停頓;(2)連接詞語音識別系統:其輸入系統要求對每個詞都清楚發音,開始出現一些連音現象;(3)連續語音識別系統:連續語音輸入自然流利的語音,會出現大量的連音和變音。另外從識別系統的詞匯量大小分:小詞匯量語音識別系統(幾十個詞);中等詞匯量語音識別系統(幾百到上千個詞);大詞匯量語音識別系統(幾千到幾萬個詞)。第3頁/共33頁32021/10/10星期日語音識別概述語音識別的基本方法:一般來說,語音識別的方法有三種:基于聲道模型和語音知識的方法、模板匹配的方法以及利用人工神經網絡的方法。(1)語音學和聲學的方法
該方法起步較早,在語音識別技術提出的開始,就有了這方面的研究,但由于其模型及語音知識過于復雜,現階段沒有達到實用的階段.(2)模板匹配的方法模板匹配的方法發展比較成熟,目前己達到了實用階段。常用的技術有三種:動態時間規整(DTW)、隱馬爾可夫(HMM)理論、矢量量化(VQ)技術。(3)神經網絡的方法
基于ANN的語音識別系統通常由神經元、訓練算法及網絡結構等三大要素構成。由于基于神經網絡的訓練識別算法由于實現起來較復雜,目前仍只是處于實驗室研究階段。第4頁/共33頁42021/10/10星期日語音識別概述
目前語音識別的研究主流是大詞匯量的非特定人的連續語音系統,但是事實上,對于許多應用來說,一個語音識別系統只要一組詞匯或命令,它就可能為用戶提供一個有效的工具,簡單有效的孤立詞特定人語音識別系統就能滿足要求。正是孤立詞特定人語音識別系統廣闊的應用前景以及優越性促使我們繼續對它進行研究目前市場上出現的語音識別器大多數是特定人孤立單詞語音識別系統。孤立詞語音識別系統中的難點問題:(1)語音信號的多變性語音信號是非平穩隨機信號,不但不同發音者發音之間存在重大的差異,即使同一人同一語音的不同次發音,也存在很大差異。(2)噪聲影響當實際環境中有噪聲存在時,容易造成訓練與測試環境不匹配導致語音識別系統性能急劇下降。(3)端點檢測統計表明語音識別系統一半以上的識別錯誤來自端點檢測錯誤。在安靜環境下有聲段和無聲段時能量存在很大差異,由此判斷語音的起點。但是當噪聲的能量和語音信號的能量接近時就可能造成端點檢測的誤差從而導致識別結果錯誤。第5頁/共33頁52021/10/10星期日語音識別概述
(4)詞與詞的特征空間混疊語音識別的常規方法是利用語音信號的短時周期特性將語音時域采樣信號分為若干段,計算出每一段的特征矢量序列作為識別參數。但是很多不同的詞語的矢量序列在特征空間中存在混疊現象,甚至有些不同詞語的混疊程度會超過同一詞語的不同次發音,從而降低識別率。第6頁/共33頁62021/10/10星期日語音識別系統基本原理語音信號產生模型
語音是由空氣流激勵聲道產生的。對于濁音、清音和爆破音三種不同類型的音來說,激勵源是不同的。濁音激勵源是位于聲門處的準周期脈沖序列,清音的激勵源是位于聲道的某個收縮區的空氣湍流(類似于噪聲),而爆破音的激勵源是位于聲道某個閉合點處建立起來的氣壓及其突然釋放。語音生成系統分為三個部分,在聲門(聲帶)以下,稱為聲門子系統,它產生激勵振動,是激勵系統:從聲門到嘴唇的呼氣通道是聲道系統:語音從嘴唇輻射出去,所以嘴唇以外是輻射系統。因此,完整的語音信號的數學模型可以用三個子模型:激勵模型、聲道模型和輻射模型的串聯表示。第7頁/共33頁72021/10/10星期日語音信號產生的時域模型語音識別系統基本原理第8頁/共33頁82021/10/10星期日語音識別系統基本原理語音信號分析基礎
語音信號的分析主要有時域分析和頻域分析兩種,其他還有倒譜域、語譜分析等。語音信號是一種典型的非平穩信號。語音的形成過程與發音器官的運動密切相關,這種物理運動比起聲音振動速度來講要緩慢得多,因此語音信號可假定為短時平穩的,其頻譜特性和某些物理參數在10-30ms時間段內是近似不變的,對語音信號進行處理都是基于這個假設語音信號的時域分析參數主要有短時能量、短時平均幅度、短時過零率等,這些參數主要用在語音端點檢測中。頻域分析參數主要有基音頻率、濾波器組參數、線性預測系數(LPC)、線性預測倒譜系數(LinearPredictionCepstrumCoefficient,LPCC)、線譜對參數(LinearSpectrumPair,LSP),MEL頻率倒譜系數(Mel-FrequencyCepstrumCoefficient,MFCC)等.第9頁/共33頁92021/10/10星期日語音識別系統基本構成語音識別系統基本原理第10頁/共33頁102021/10/10星期日語音識別系統基本原理預處理預處理部分包括語音信號的采樣、反混疊濾波、語音增強,去除聲門激勵和口唇輻射的影響以及噪聲影響等,預處理最重要的步驟是端點檢測。特征提取特征提取部分的作用是從語音信號波形中提取一組或幾組能夠描述語音信號特征的參數,如平均能量、過零數、共振峰、倒譜、線性預測系數等,以便訓練和識別。參數的選擇直接關系著語音識別系統識別率的高低。訓練訓練是建立模式庫的必備過程,詞表中每個詞對應一個參考模式,它由這個詞重復發音多遍,再經特征提取和某種訓練中得到。模式匹配模式匹配部分是整個系統的核心,其作用是按照一定的準則求取待測語音特征參數和語音信息與模式庫中相應模板之間的失真測度,最匹配的就是識別結果。第11頁/共33頁112021/10/10星期日預處理及特征參數提取語音信號的數字化和預處理
1、語音信號數字化要了分析說話人的語音,就要將話筒中傳來的語音信號轉換成計算機所能處理的數字信號。通過對語音信號特性的分析表明,濁音語音的頻譜一般在4KHz以上便迅速下降。而清音語音信號的頻譜在4KHz以上頻段反而呈上升趨勢,甚至超過了8KHz以后仍沒有明顯下降的苗頭。實驗表明語音清晰度和可懂度有明顯影響的成分最高頻率約為5.7KHz。而語音信號本身的冗余度又比較大,少數輔音清晰度下降并不明顯影響語句的可懂度。因此語音識別時常用的采樣頻率為10KHz或16KHz。
2、預加重為了消除聲門激勵和口鼻輻射的影響,需要對語音信號作預加重理。它的目的在于消除低頻干擾尤其是50Hz的工作頻率干擾,將對語音識別更為有用的高頻部分的頻譜進行提升。使信號的頻譜變的平坦,保持在低頻到高頻的整個頻帶中,能用同樣的信噪比求頻譜,以便于頻譜分析。預加重數字濾波器一般是一階的數字濾彼器:,其中u的取值一般介于0.93和0.98之間。第12頁/共33頁122021/10/10星期日預處理及特征參數提取3、語音分幀語音信號常常可假定為短時平穩的,即在10-20ms這樣的時間段內,其頻譜特性和某些物理特征參量可近似地看作是不變的。這樣就可以采用平穩過程的分析處理方法來處理了。這種處理的基本方法是將語音信號分隔為一些短段即分幀再加以處理。分幀可以采用連續分段的方法,也可采用交疊分段的方法。一般采用交疊分段的方法,即幀與幀之間有交疊,交疊的目的是使幀與幀之間平滑過渡,保持其連續性。語音信號處理的幀長一般取20ms第13頁/共33頁132021/10/10星期日為了減小語音幀的截斷效應,需要加窗處理:矩形窗:Hamming:Hann:矩形窗的主瓣寬度最小,旁瓣高度最高,會導致泄漏現象,漢明窗的主瓣最寬,旁瓣高度最低,可以有效的克服泄漏現象,具有更平滑的低通特性,應用更廣泛。預處理及特征參數提取第14頁/共33頁142021/10/10星期日預處理及特征參數提取語音信號的時域分析
1、短時平均能量短時平均能量反映了語音振幅或能量隨著時間緩慢變化的規律。可以從語音中區別出濁音來,因為濁音時短時平均能量的值要比清音時短時平均能量的值大很多。其計算公式如下:
2、短時過零率短時過零率表示一幀語音中語音信號波形穿過橫軸的次數。對于連續信號,過零率意味著時域波形通過時間軸;在離散時間信號情況下,當相鄰的兩次抽樣具有不同的代數符號時就稱為發生了過零.應用短時平均過零率可以得到譜特性的粗略估計。短時平均過零率的定義為:濁音時能量集中于較低頻率段內,具有較低的過零率,而清音時能量集中于較高頻率段內,具有較高的過零率。第15頁/共33頁152021/10/10星期日預處理及特征參數提取第16頁/共33頁162021/10/10星期日預處理及特征參數提取3、端點檢測端點檢測的目的就是從連續的聲音中間檢測出每一段語音的起始點和終止點,從而達到節省系統資源,方便實時分析的效果。此外,端點檢測的好壞還將直接影響孤立詞識別率的高低。雙門限前端檢測算法是經典的起止點檢測算法,這種端點檢測技術主要利用短時過零率特征和每幀的平均幅值特征來判斷語音信號的起止點,采用矩形窗進行分幀。第17頁/共33頁172021/10/10星期日預處理及特征參數提取端點檢測效果圖第18頁/共33頁182021/10/10星期日預處理及特征參數提取語音信號的特征參數提取提取特征參數滿足的要求:
1、能有效地代表語音特征,具有很好的區分性
2、參數間有良好的獨立性
3、特征參數要計算方便,要考慮到語音識別的實時實現常用的特征參數包括:線性預測系數(LPC);線性預測倒譜系數(LinearPredictionCepstrumCoefficient,LPCC);MEL頻率倒譜系數(Mel-FrequencyCepstrumCoefficient,MFCC)。
第19頁/共33頁192021/10/10星期日預處理及特征參數提取倒譜介紹
倒譜定義為時間序列的z變換的模的對數的逆z變換:
倒譜分析的基礎是假設語音是激勵函數與聲道沖激響應的卷積。語音的倒譜實際上是將語音的頻譜(短時譜)取對數后再進行逆傅里葉變換(實際上代之以DFT)得到的。因此,聲道濾波器對于倒譜的貢獻將表現為=0附近的峰起;而周期性脈沖激勵對倒譜的貢獻將表現為具有同樣周期的沖擊。
第20頁/共33頁202021/10/10星期日預處理及特征參數提取線性預測系數(LPC)語音的線性預測基本思想是:語音信號的每個取樣值可以用它過去的若干個取樣值的線性組合來表示;各加權系數的確定原則是使預測誤差的均方值最小。如果利用過去p個取樣值來進行預測,稱為p階線性預測。
假設前提:語音信號可以看成是一個線性時變系統在準周期脈沖序列(相當于濁音)或隨即噪聲(相當于清音)激勵下所產生的輸出。對于除鼻音和摩擦音以外的大多數語音來說,時變線性系統都可以用一個全極點系統來表示。這個全極點時變系統的參數隨著時間的變化是非常緩慢的,在一幀語音時間內可以近似地認為它是非時變的。這樣就可以根據該信號過去的p個取樣值對信號的當前值進行預測,而且在均方誤差最小的意義上這種預測是最佳的,預測系數必將等于全極點系統的參數。第21頁/共33頁212021/10/10星期日預處理及特征參數提取線性預測倒譜系數(LPCC)
通過線性預測得到全極點系統函數為:
倒譜定義為時間序列的z變換的模的對數的逆z變換。因此線性預測倒譜可表示為:
LPCC系數主要是模擬人的發聲模型,未考慮人耳的聽覺特性,它對元音有較好的描述能力,對輔音描述能力及抗噪性能比較差,其優點是計算量小,易于實現。第22頁/共33頁222021/10/10星期日預處理及特征參數提取MEL頻率倒譜系數MFCC
MFCC參數是目前大多數語音識別系統中廣泛使用的特征參數,它是基于人耳的聽覺特性。人耳對聲音音調的感受與其頻率并不成線性關系。而Mel倒譜尺寸,則更符合人耳的聽覺特性。Mel頻率尺度,它的值大體上對應于實際頻率的對數分布關系。Mel頻率與實際頻率的具體關系可用下式表示:
MFCC的計算流程可以簡單的概括為以下五個步驟:
1、分幀
2、DFT計算譜系數
3、對譜系數的幅值取log
4、將3中的結果轉化到Mel
頻標下
5、做DCT變換
MFCC與基于線性預測的LPCC相比,其突出優點是不依賴全極點語音產生模型的假定,因而在噪聲環境下表現出更強的魯棒性,在非特定人語音識別方面有利于減小因說話人不同的差異可能帶來的影響。不足之處是MFCC方法中多次用到FFT,故算法的復雜程度遠大于LPCC方法。第23頁/共33頁232021/10/10星期日Mel濾波器組預處理及特征參數提取第24頁/共33頁242021/10/10星期日語音模板及相似性判斷方法模板訓練方法偶然性訓練方法每個單詞的每一遍讀音形成一個模板,在識別時,待識別語音特征矢量序列用特定的匹配算法分別求得與每個模板的累計失真,然后判別它屬于哪一類。魯棒性訓練方法將每一個詞重復說多遍,直到得到一個一致性較好的特征矢量序列。最終得到的模板是在一致性較好的特征矢量序列。聚類訓練法對于非特定人語音識別,要想獲得較高的識別率,就需要對多組訓練數據進行聚類,以獲得可靠的模板參數。比如矢量量化方法(VQ)。第25頁/共33頁252021/10/10星期日語音模板及相似性判斷方法模式匹配方法基于動態模板匹配技術的DTW識別法動態時間彎折(DTW)基于動態規劃的思想,解決了發音長短不一的匹配問題,是語音識別中出現較早、較為經典的一種算法。第26頁/共33頁262021/10/10星期日語音模板及相似性判斷方法模式匹配方法基于聚類理論的矢量量化(VQ)識別法矢量量
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025土地使用權轉讓合同模板
- 2025年陜西省采礦權出讓合同
- 2025年的技術許可合同范本
- 2025便利店特許經營合同
- 英語學習探索
- 英語實戰技能提升
- 音樂的世界模板
- 引領農場未來
- 2025餐館店面裝修合同范本
- 以文化賦能競爭力
- 呼吸護理新進展課件
- 2025年網絡安全培訓考試題庫(網絡安全專題)實戰試題
- 行政管理本科畢業論文-地方政府智慧政府建設問題與對策研究-以G市為例
- 衛星星座設計與組網策略-全面剖析
- (一模)2025年3月濟南市2025屆高三模擬考試英語試卷(含答案)
- T-CSBT 012-2024 全血及成分血外觀檢查和處置指南
- 環境應急知識與技能培訓
- 2025年礦山救援隊技能理論考試題庫資料500題(含答案)
- 2024遼寧沈陽水務集團有限公司招聘20人筆試參考題庫附帶答案詳解
- 建筑工地物業服務合同模板7篇
- 《計算機發展史》課件
評論
0/150
提交評論