語音信號處理第10講課件_第1頁
語音信號處理第10講課件_第2頁
語音信號處理第10講課件_第3頁
語音信號處理第10講課件_第4頁
語音信號處理第10講課件_第5頁
已閱讀5頁,還剩45頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

9.1概述9.2語音信號壓縮編碼的原理和壓縮系統評價9.3語音信號的波形編碼9.4語音信號的參數編碼9.5語音信號的混合編碼第九章語音編碼語音編碼(SpeechCoding)在語音通信及人類信息交流中占有舉足輕重的地位。對語音信號的模擬傳輸持續了近一個世紀,目前,正逐漸被數字系統所取代。9.1概述信源信源編碼信道編碼調制傳輸通道解調信道解碼信源解碼信宿(用戶)噪聲本章研究的內容數字傳輸系統模型數字傳輸的優缺點:優點:傳輸多樣化,低成本且保密性強,頻率利用更加有效缺點:直接采用A/D轉換技術進行編碼會導致傳輸或存儲的語音數據量巨大,增加成本,必須對其進行壓縮。編碼技術的目的:減少傳輸碼率或存儲量,提高傳輸或存儲的效率。碼率=取樣頻率x量化位數x通道數目

例:電話語音=8kx8bx1=64kbps=8kB/s=28MB/h9.1概述傳輸碼率:傳輸每秒鐘語音信號所需要的比特(bit:二進位制信息單位)數,也成為數碼率降低數據量的編碼,稱之為壓縮編碼。同樣的信道容量能夠傳輸更多路的信號,如果存儲的話,只需要較小容量的存儲器。對數字語音進行數據壓縮的目的:提高通信/存儲效率降低通信/存儲成本語音壓縮的原因:聲音信號中包含有大量的冗余信息鄰近樣本之間有很大的相關性周期之間的相關性基音之間的相關性長時(幾十秒)自相關性話音間歇(靜音)壓縮編碼需要在保持可懂度和音質、降低數碼率、降低編碼過程的計算代價這3方面進行折衷。9.1概述信源信源編碼信道編碼調制傳輸通道解調信道解碼信源解碼信宿(用戶)噪聲本章研究的內容數字傳輸系統模型信源編碼和信道編碼都是信息科學的重要分支。信息編碼:主要解決有效性問題,通過對信源的壓縮、擾亂、加密等一系列處理,力求用最少的數碼率傳遞最大的信息量,使信號更適宜傳輸和存儲信道編碼:主要解決可靠性問題,即盡量使處理過的信號在傳輸的過程中不出錯或者少出錯,即使出了錯也要能自動檢錯和盡量糾錯信源編碼的分類:波形編碼參數編碼波形編碼力圖使重建后的語音時域信號的波形與原語音信號波形保持一致特點:適應能力強、話音質量好,但需要編碼速率高參數編碼又稱“聲碼器技術”,它根據對聲音形成機理的分析,在以重建語音信號具有足夠可懂性的原則上,通過建立語音信號的產生模型,提取代表語音信號特征的參數來編碼,波形上并不一定與原始信號匹配(共振峰聲碼器和線性預測聲碼器都是典型的參數聲碼器)特點:編碼速率低,但語音質量差混合編碼:結合波形編碼和參數編碼的優點而產生,突破了兩者的界限,應用更廣區別在于重建的語音時域信號是否在波形上盡量與原始信號一致波形編碼器的話音質量高,但數據率也很高。音源編碼器的數據率很低,產生的合成話音音質有待提高。混合編碼器使用音源編碼器和波形編碼器技術,數據率和音質介于二者之間。語音編碼性能指標主要有比特速率、時延、復雜性和還原質量。極低低中碼率(kb/s)1248163264優良中差壞語音質量模型編碼(源編碼)混合編碼波形編碼從信息論的角度看,信源編碼的一個主要目的就是解決數據壓縮問題。(數據壓縮=信源編碼)語音壓縮的基本原理:語音信號編碼為二進制數字序列,最簡單的方法是對其直接進行A/D變換。只要取樣足夠高,量化每個樣本的比特數足夠多,就可以保證解碼恢復的語音信號有很好的音質,不會丟失有用信息,但是直接數字化所需的數碼率太高,導致傳輸信道難以承受,必須對語音信號進行壓縮編碼壓縮編碼的基本依據:語音信號的冗余度和人的聽覺感知機理9.2語音信號壓縮編碼的原理及壓縮系統評價語音信號的冗余度:多種冗余度并存,可分別從時域或頻域來描述存在的時域冗余度:①幅度非均勻分布;②語音信號樣本間的相關性很強;③濁音語音段具有準周期性;④聲道的形狀及其變化比較緩慢;⑤靜止系數(語音間隙,本身就是一種冗余)存在的頻域冗余度:①非均勻的長時功率譜密度;②語音特有的短時功率譜密度;9.2語音信號壓縮編碼的原理及壓縮系統評價人的聽覺感知機理:即利用人類聽覺的某些特點,主要表現在:①人類聽覺系統具有掩蔽效應,一個單音的聲級越高,對其周圍頻率聲音的掩蔽作用越強——可抑制與信號同時存在的量化噪聲;②人耳對不同頻段聲音的敏感程度不同,人的聽覺對低頻段比較敏感(濁音的周期和共振峰集中在低頻端)——強的低頻音能妨礙同時存在的高頻音;③人耳對語音信號的相位變化不敏感;9.2語音信號壓縮編碼的原理及壓縮系統評價語音編碼的關鍵技術:線性預測法(常用技術):基于全極點模型假設,采用時域均方差最小準則來估計模型參數,其出發點在于跟蹤波形的產生過程,而不是波形本身,傳送的是反映整個過程變化的參數。合成分析法:將綜合器引入編碼器,使之與分析器相結合,在編碼器中生成和譯碼器端完全一致的語音。將合成語音與原始語音相比較,根據一定的誤差原則,來調整計算各個參數使得兩者之間的誤差最小。感覺加權濾波器:根據人耳的掩蔽效應來設計的,采用最小均方誤差準則來評定合成語音質量是否為最優。通過引入一個頻域的感覺加權濾波器W(z)來衡量語音之間的誤差:9.2語音信號壓縮編碼的原理及壓縮系統評價語音壓縮系統的性能指標和評測方法:語音編碼研究的主要問題是如何在給定的編碼速率下獲得盡可能好的高質量語音,同時減小編碼的時延及算法的復雜度,衡量一種語音壓縮編碼算法的主要指標包括:編碼速率、語音質量、頑健性、計算復雜度和算法的可擴展性等。編碼速率(又稱比特率):指一個編碼器的信息速率。中碼率(8~16kbit/s);低碼率(2.4~8kbit/s);超低碼率(小于2.4kbit/s);編碼器的頑健性:是通過取多種不同來源的語音信號進行編碼解碼,并對輸出語音質量比較測試得到的一種指標編碼器時延:用單次編碼所需要的時間來表示(對系統通信質量有很大的影響)誤碼容限:通常要求編碼器在1%的誤碼率下仍能提供可用的輸出語音。9.2語音信號壓縮編碼的原理及壓縮系統評價語音壓縮系統的性能指標和評測方法:此外,語音質量作為衡量語音編解碼技術的關鍵指標,其質量分為:廣播級:寬帶高音質語音信號網絡或電話級:語音質量與模擬語音信號相當通信級:語音質量有所下降,但有較高的自然度和話者識別度合成級:能保證一定的語音質量,但自然度和話者識別度下降9.2語音信號壓縮編碼的原理及壓縮系統評價語音壓縮系統的性能指標和評測方法:評價:主觀和客觀評價主觀評價:清晰度評價:測試中,針對音節以下語音測試單元,判斷正確的百分比可懂度評價:測試中,針對音節以上語音測試單元,評聽人每次聽-對韻字中的某個音,然后判斷所聽到的音是哪個字,全部評聽人判斷正確的百分比就是可懂度音質評價:平均意見得分(MOS)從絕對等級評價法發展而來,用于對語音整體滿意度或語音通信系統質量進行評價9.2語音信號壓縮編碼的原理及壓縮系統評價得分質量級別失真級別5優(excellent)不察覺4良(good)剛有察覺3中(fair)有察覺且稍覺可厭2差(poor)明顯察覺且可厭但可忍受1劣(bad)不可忍受語音壓縮系統的性能指標和評測方法:主觀評價注意事項:主觀測試,都需要遵循3個原則要保證足夠的說話者,要求他們的聲音特征非常豐富,能夠代表實際用戶中的絕大部分要求有足夠多的數據,在理論上,人數和數據越多越好,可以用方差作為判斷樣本數的尺度對于大部分編碼器來說,清晰度和品質測試應該都做,但很悅耳的質量較好的語音可以不做清晰度測試9.2語音信號壓縮編碼的原理及壓縮系統評價客觀評價:(1)時域測度定義為被測系統的輸入語音與輸出語音在時域波形比較上的失真度(信噪比(SNR)是一種最簡單的時域客觀評價失真測度,通常有合成語音信噪比、加權信噪比、平均分段信噪比等)瞬時性能的變化用短時信噪比(STSNR)(2)頻域測度就是譜失真測度,如對數譜距離測度、LPC倒譜距離測度、巴克譜測度等都是經常用于語音質量客觀評價。(測度計算結果越小,說明語音質量越好)波形編譯碼器算法比較簡單,容易實現,低延遲,壓縮效率不高,數據速率在16kbps以上,聲音質量相當好,通用性好,適用于任意類型的數字聲音,很成熟,有一系列國際標準:CCITTG.711PCM64kb/sCCITTG.721ADPCM32Kb/sCCITTG.726ADPCM48,32,24,16Kb/s已廣泛應用于電話語音的中繼線傳輸9.3語音信號的波形編碼波形編碼遵循時間量化和抽樣定理(1)對連續的語音信號在時間軸的離散間隔點上進行波形抽樣,完成時間量化(2)抽樣信號在時間域上離散化后在有限時間段內為有限個值,此時,其幅度仍為連續變量(3)時間量化是通過抽樣保持電路完成的1、脈沖編碼調制(PCM)編碼過程:對數變換(壓縮編碼)F(n)低通濾波

(LPF)Xa(t)x(n)A/D(13位)取樣(8kHz)X(n)碼率=104kbps碼率=8位x8k=64kbps模擬聲音信號輸入防失真濾波器波形編碼器量化器PCM樣本1、脈沖編碼調制(PCM)采樣輸入樣本值采樣輸入樣本值量化器一旦確定后,量化間隔就固定下來,不隨輸入語音信號的幅度變化而變化對小信號采用小的量化間隔,對大信號采用大的量化間隔,這樣可以用較少的位數編碼對大信號來說,雖然絕對量化誤差較大,但是(1)大信號出現的機會不多(2)信噪比(相對誤差)與小信號是一致的,對總的話音質量影響不大對數變換F=ln(x)目的:適應聽覺的非線性特性;壓縮數據。采用的方法:對數PCM編碼北美和日本等地區(μ律壓擴算法)G.711標準對數變換F=ln(x)目的:適應聽覺的非線性特性;壓縮數據。歐洲和中國大陸等地區(A律壓擴算法)G.711規定的A律和m律脈沖編碼調制采用的是非線性量化,在64kbit/s速率話音質量能夠達到網絡等級在脈沖編碼調制方法中,對樣值采用3~4位編碼就可以使對方能夠聽懂,但是噪音比較大,在脈沖編碼調制通信中,通常采用8bit編碼補充說明:

脈沖編碼調制的應用應用于數字聲音的編輯處理(多媒體計算機)應用于聲音的傳輸(通信):

長途電話(8KHzx8bitx1),

時分多路復用TDM(time-divisionmultiplexing)

應用于全頻帶數字聲音的表示/存儲:

CD-DA(CD唱片),DAT(44.1KHzx16bitx2)G.721標準自適應脈沖編碼調制(APCM)能隨信號幅度的大小自動地改變量化階距的編碼制式。根據輸入樣本幅度的大小來改變量化階大小,使得量化前后的能量為恒定值(關鍵參數:量化間隔D(n)和量化增益G(n))。可以是瞬時自適應,即量化階的大小每隔幾個樣本就改變,也可以是音節自適應,即量化階的大小在較長時間周期里發生變化。改變量化階距的方法:前向自適應APCM后向自適應APCM量化器Q樣本值量化階適配器自適應APCM編碼輸出自適應脈沖編碼調制(APCM)能隨信號幅度的大小自動地改變量化階距的編碼制式。改變量化階距的方法:前向自適應APCM:根據未量化的樣本值得均方根值來估計輸入信號的電平,以此來確定量化階距的大小,并對其電平進行編碼作為邊信息(SideInformation)傳送到接收端前向自適應預測用于分幀處理的情況,一般采用全極點預測器,對語音信號逐幀提取LPC系數,作為線性預測系數特點:使用原始信號提取預測系數,精度較高,預測的效果好,但需要將預測系數用邊信息傳送到接收端的解碼器,用以減小差值信號量化的有效比特數,延時較大自適應脈沖編碼調制(APCM)后向自適應APCM:根據從量化器剛輸出的過去樣本中提取量化階信息,這種自適應能在收發兩端自動生成量化階,不需要傳送邊信息后向自適應預測利用量化后的信號提取預測信號,避免了前向自適應預測的缺點,但由于存在量化噪聲,預測系數的提取精度受到一定的影響。前向和后向自適應脈沖編碼調制的區別:前向自適應的量化間隔和增益是通過對輸入信號估計而得到的后向是有估計編碼器或者量化器輸或者出來決定量化間隔自適應預測編碼(APC)利用線性預測改進編碼器中的量化器性能,即:在接收端,只要使用與發送端相同的預測器,就可以恢復原信號,基于這種原理的編碼稱為預測編碼,而當預測系數是自適應隨語音信號變化時,稱為自適應預測編碼。優點:能夠改善信噪比自適應脈沖編碼調制(APCM)自適應預測編碼(APC)語音數據流一般為10~20ms相繼的幀,而預測系數與預測誤差一起傳輸;接收端,預測器系數控制的逆濾波器再現語音(1)增量調制對語音信號的信息用最低限度的一位來表示的方法。1)判別下一個語音信號值與當前的信號值相比是高還是低2)如果高則給定編碼“1”,如果低則給定編碼“0”3)在接收端,用接收的脈沖串控制,信號就可以用升降的階梯波形來逼近增量調制(DM)及自適應增量調制(ADM)根據過去的樣本去估算下一個要量化編碼的樣本信號幅度有多大,這個值稱為預測值,編碼器僅對實際信號值與預測值的差進行量化編碼差分脈沖編碼調制(DPCM)差分脈沖編碼調制的思想是,根據過去的樣本去估算下一個樣本信號的幅度大小,這個值稱為預測值,然后對實際信號值與預測值之差進行量化編碼,從而就減少了表示每個樣本信號的位數效果:量化位數可以顯著減少,從而降低了總的碼率與PCM的區別:PCM是直接對采樣信號進行量化編碼;DPCM是對實際信號值與預測值之差進行量化編碼,存儲或者傳送的是差值而不是幅度絕對值,這就降低了傳送或存儲的數據量。此外,它還能適應大范圍變化的輸入信號。自適應差分脈沖編碼調制(ADPCM)PCM在量化間隔上的矛盾:為適應大的幅值要用大的量化間隔,而提高信噪比要用小的間隔——自適應差分脈沖編碼調制技術(是利用樣本與樣本之間存在的信息冗余度來進行編碼的一種數據壓縮技術)原理:聲音信號具有很強的相關性,可從已知信號來預測未知信號,即使用前面的樣本預測當前的樣本,實際樣本值與預測值之間的誤差往往很小。利用自適應的思想改變量化階的大小,即使用小的量化階(step-size)去編碼小的差值,使用大的量化階去編碼大的差值CCITTG.721ADPCM編碼器6階自適應線性預測,

4位的自適應量化器,輸出碼率:8kx4=32kbps量化器Q13位自然碼的數字語音樣本_線性預測器逆量化器Q-1+預測值差值重建信號ADPCM編碼輸出量化階適配器自適應(4位)ADPCM小結PCM話音質量4.5級ADPCM話音質量4.34級,碼率降低一倍(32kbps)。ADPCM應用:數字語音通信多媒體應用中的語音(解說詞)Sub-bandcoding(子帶編碼)PCM,DPCM都是不對輸入信號頻帶做任何分割的前提下,在時域中進行的處理,這種編碼方式稱為整帶時域編碼。SBC是將語音信號劃分為多個頻帶,然后對每個頻帶的參數進行編碼基本原理:利用帶通濾波器(BPF)把聲音信號按頻率范圍劃分成幾個組成部分(子頻帶,子帶)低頻部分能量較集中,量化精度要高,取樣頻率可稍低高頻部分是摩擦音、噪音,量化精度可低些,但取樣頻率要稍高不同子頻帶作不同的ADPCM編碼處理,然后再復合在一起子帶編碼的特點:(1)分割的子帶信號分別進行了頻譜平移(對頻譜平移后的子帶進行量化、編碼這類編碼方式稱為頻譜編碼,頻譜編碼將信號分解成不同頻帶分量的過程去除了信號的多余度,得到一組不相關的信號)(2)對不同的子帶合理分配比特數,能分別控制各子帶的量化電平數目以及相應的重建信號的量化誤差,使誤差譜的形狀適應人耳聽覺特性,得到更好的主觀聽覺質量(3)由于語音的基音和共振峰主要集中在低頻段,所有對低頻段采用較多的比特數來表示樣值,而高頻段則采用較少的比特數(4)SBC的另一個優點是各個子帶內的量化噪聲相互獨立,避免輸入電平較低的子帶信號被其他子帶的量化噪聲所淹沒語音信號的參數編碼參數編碼(源編碼)的設計思想分析人的發聲器官的結構及語音生成的原理,建立語音生成的物理(數學)模型,編碼時:從話音波形信號中提取生成該話音的參數;解碼時:根據語音生成模型,使用這些參數合成原始話音。提取語音生成參數語音生成模型(編碼器)語音參數數字語音使用參數合成語音語音生成模型(解碼器)重建的語音聲碼器聲碼器聲碼器線性預測聲碼器LPC模型=(a1,a2,a3,a4,a5,a6,a7,a8,a9,a10,G,V/UV,T)脈沖序列發生器隨機噪聲發生器基音周期T(聲帶振動)(聲帶不振動)UV(清音)V(濁音)H(z)聲道參數a1a2a3a10...語音(聲道濾波器)s(n)增益Gu(n)激勵信號語音是一個近似的短時(10~30ms)平穩隨機過程,LPC模型的參數A=(a1,a2,a3,a4,a5,a6,a7,a8,a9,a10,G,V/UV,T)變化比較慢,大約每20ms變化一次;假設語音信號的取樣頻率為8kHz,將每秒鐘分成50幀,每幀20ms(其中有20x8=160個樣本),每一幀的所有信號近似地滿足同一模型,即每一幀語音可以使用同一組參數來表示:濁音還是清音(1位)濁音的基頻

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論