




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第五章語音編碼語音編碼概述波形編碼參數編碼混合編碼21.語音編碼概述
語音編碼又分信源編碼和信道編碼。本章主要介紹信源編碼。 語音信號編碼(信源編碼)與語音信號壓縮,實際上是同一技術兩個名稱。其目的是在給定編碼速率條件下,得到盡量好的重建語音質量(或稱編碼質量),同時應減小編解碼延時以及算法的復雜程度。其中,編碼質量、編碼速率、編解碼算法的復雜程度、編解碼延時是相互關聯的四個主要因素。3語音信號編碼系統的應用編碼-存儲-回放系統(數字語音錄放)編碼-傳輸-解碼系統(數字語音通信)
4語音信號壓縮(編碼)方法分類有損壓縮,又分成如下三類:波形編碼全頻帶編碼(如PCM、ADPCM)、子帶編碼(簡寫SBC)、變換域編碼等。參數編碼(聲碼器)在語音信號發送端提取語音的特征參數,在接收端以某種最小的失真合成原始信號。如線性預測聲碼器(簡寫LPC)。混合編碼波形編碼參數編碼的結合。如如矢量和激勵線性預測(簡寫VSELP)、多脈沖激勵線性預測(簡寫MP-LPC)、碼本激勵線性預測(簡寫CELP)、多帶激勵(簡寫MBE)等。無損壓縮:如統計編碼(霍夫曼編碼、算術編碼)、游程編碼等。5衡量語音編碼性能的主要因素
A.編碼質量客觀評定方法。如信噪比、加權信噪比、平均分段信噪比等。適用于速率較高的波形編碼類型的算法。主觀評定方法。常采用平均意見得分(MeanOpinionScore,簡稱MOS得分),判斷韻字測試(DiagnosticRhymeTest,簡稱DRT得分),判斷滿意度測量(DiagnosticAcceptabilityMeasure,簡稱DAM得分)等。主觀評定方法因符合人類聽覺對語音質量的感覺,目前得到廣泛應用。6平均意見得分(MOS)評分質量尺度妨礙尺度5
優不察覺4
良好剛察覺但不可厭3
一般察覺及稍微可厭2
差可厭(但不令人反感)1
很差極可厭(令人反感)
在數字語音通信中,MOS分4.0~4.5為高質量數字化語音,達到長途電話網的要求,接近于透明信道的編碼,也稱為網絡質量。MOS分3.5分左右稱為通信質量,這時重建話音質量有所下降,但不妨礙正常通話,可以滿足多數話音通信系統的使用要求。MOS分為3.0分以下常稱為合成語音質量,是指一些聲碼器合成語音所能達到的質量,一般具有足夠高的可懂度,但是自然度以及講話人的確認方面不是很好。7判斷韻字測試(DRT)判斷韻字測試是反映話音清晰度或者可懂度的一種測試方法,主要用于低速率語音編碼的質量測試。這種測試方法使用若干對同韻母進行測試,測試中,讓受試者每次聽到一對韻母中的某個音,然后讓其判斷聽到的音是哪個字,全體試驗者判斷正確的百分比就是DRT得分。通常認為DRT為95%以上時清晰度為優,85%-95%為良,75%-85%為中,65%-75%為差,65%以下為不可接受。實際通話中,由于整句中有較多的冗余度,即使個別字聽不清楚,也能理解整句話的原因,當清晰度為90%時,整句話的可懂度接近于100%。測試滿意度測量(DAM)
測試滿意度測量(DAM)是對話音質量的綜合評估,它是在多種條件下對話音質量可接受程度的一種度量,也是采用百分比評分。8提高語音編碼質量的主要途徑利用語音信號的冗余度語音信號樣點間的相關性幅度分布的不均勻性
利用人耳的聽覺特性聽覺的掩蔽效應聽覺對幅度和頻率的感知特性9衡量語音編碼性能的主要因素
B.編碼速率
單位為“比特/秒”(b/s),一般以I
表示;或單位為“比特/樣點”,一般以R
表示。I
和R
通過采樣速率fs
聯系起來。即
I=R·fs
式中,R
越高,語音質量越高,但對傳輸帶寬的要求也越高。
在波形編碼中,為了取得高質量的重建話音,一般取R>=2
在參數編碼中R可以低到0.25甚至0.1以下。信號類型采樣頻率(KHz)編碼速率(Kbps)頻率范圍(Hz)電話82.4-64300-3400激光唱盤CD44.1>70020-20000數字廣播及數字磁帶48>70020-2000010根據編碼速率,語音編碼可以分成如下幾類:高速率32Kbps以上中高速率16Kbps——32Kbps中速率4.8Kbps——16Kbps低速率1.2Kbps——4.8Kbps極低速率1.2Kbps以下11衡量語音編碼性能的主要因素
C.編解碼的復雜程度
與語音編碼的話音質量及硬件實現成本有關,一般來說,增加編碼算法的復雜度會增加話音的質量。
D.編解碼延時
在實時通信中引起延時和回聲,必須考慮。當延時超過100ms時,說話者就會聽到自己的回聲。122.語音波形編碼
脈沖調制編碼(PulseCodingModulation,PCM)
均勻量化PCM
非均勻量化PCM
自適應量化PCM(AdaptivePCM,APCM)
差分脈沖編碼(DifferencePCM,DPCM)自適應差分脈沖編碼(ADPCM)
增量調制(DeltaModulation,DM)和自適應增量調制子帶編碼(Sub-bandcoding,SBC)
變換域編碼13脈沖調制編碼(PCM)PCM是最簡單的波形編碼方法,它僅僅是對輸入信號進行采樣和量化典型的窄帶話音帶寬限制在4kHz以下,采樣頻率是8kHz
量化有均勻量化和非均勻量化兩種方式PCM編碼原理圖采樣14均勻量化的信噪比當語音信號的采樣率為8KHz,采用12bit/樣本(B=12)量化,SNR≈65dB,編碼速率為8*12=96Kbps均勻量化采樣輸入樣本值x(n)量化輸出數據y(n)非均勻量化采樣輸入樣本值x(n)量化輸出數據y(n)15非均勻量化的基本思想對小信號采用小的量化間隔,對大信號采用大的量化間隔,這樣可以用較少的位數編碼。對大信號來說,雖然絕對量化誤差較大,但是因為:大信號出現的機會不多;信噪比(相對誤差)與小信號是一致的;人耳對信號幅度的感知靈敏度是成對數關系所以對總的話音質量影響不大16μ律壓擴(μ-lawcompand)與A律壓擴 μ律(μ-Law)壓擴(G.711)主要用在北美和日本等地區的數字電話通信中。x(n)
為輸入信號,一般規格化為-1<=x(n)<=1,則Xmax=1μ為確定壓縮量的參數,它反映最大量化間隔和最小量化間隔之比,μ=0則不壓縮,一般取100<=μ<=500。17原始語音μ=50μ=200μ=500μ-law語音編碼結果18xy=lin2mu(x)z=mu2lin(y)x-z19A律(A-Law)壓擴(G.711)主要用在歐洲和中國大陸等地區的數字電話通信中對于采樣頻率為8kHz,樣本精度為13位、14位或者16位的輸入信號,使用μ律壓擴編碼或者使用A律壓擴編碼,經過PCM編碼器之后每個樣本的精度為8位,輸出的數據率為64kb/s。這個數據就是CCITT推薦的G.711標準(A=87.6)。設Xmax=120自適應脈沖編碼調制是根據輸入信號幅度大小來改變量化階大小的一種波形編碼技術。這種自適應可以是瞬時自適應,即量化階的大小每隔幾個樣本就改變,也可以是音節自適應,即量化階的大小在較長時間周期里發生變化。改變量化階大小的方法有兩種:一種稱為前向自適應(forwardadaptation),另一種稱為后向自適應(backwardadaptation)。APCM比一般的非均勻量化PCM能提高信噪比4-6dB自適應脈沖調制編碼(APCM)21前向APCM前向自適應是根據未量化的樣本值來估算輸入信號的電平,以此來確定量化階的大小,并對其電平進行編碼作為邊信息(sideinformation)傳送到接收端。后向APCM后向自適應是從量化器剛輸出的過去樣本中來提取量化階信息。由于后向自適應能在發收兩端自動生成量化階,所以它不需要傳送邊信息。22DPCM采用預測編碼的方式傳輸信號,所謂預測編碼就是根據過去的信號樣值來預測下一個信號樣值,并僅把預測值與現實樣值的差值加以量化,編碼后進行數字信號傳輸。在接收端經過和發送端相同的預測操作,低通濾波器便可恢復出與原始信號相近的波形。其依據是語音信號相鄰樣本間有很強的相關性(冗余度高),因此相鄰樣本的差值遠小于樣本值本身。DPCM是采用固定預測器與固定量化器的差值脈沖調制,它是分析ADPCM工作原理的基礎。 差分脈沖編碼(DPCM)23DPCM的原理圖誤差信號會逐漸累積,導致可能語音出現嚴重失真24實際DPCM的結構圖誤差信號不再累積25采用LPC編碼的DPCM的結構圖編碼器P(z)解碼器P(z)對于相同的量化比特,DPCM可以獲得比PCM更高的信噪比,1階DPCM信噪比提高約5dB.在相同的信噪比情況下,DPCM的比特率比PCM小,1階DPCM減少1bit,3階DPCM減少2bit,編碼速率由64Kbps降到48Kbps26ADPCM綜合了APCM的自適應特性和DPCM系統的差分特性,是一種性能比較好的波形編碼。它的核心思想是:用過去的樣本值估算下一個輸入樣本的預測值,線性預測P(z)的系數ai可變,預測誤差d(n)更小,量化的電平間隔可以更小,從而減小量化誤差使實際樣本值和預測值之間的差值。利用自適應的思想改變量化階的大小,即用小的量化階去編碼小的差值,使用大的量化階去編碼大的差值;自適應量化可以進一步減小量化誤差。接收端的譯碼器使用與發送端相同的算法,利用傳送來的信號來確定量化器和逆量化器中的量化階大小,并且用它來預測下一個接收信號的預測值。ADPCM已經形成國際標準:如G.721、G.723,以及G.726G.726提供4種碼率:40、32、24、16Kbps,其語音質量相當于64Kbps的PCM編碼 自適應差分脈沖編碼(ADPCM)27ADPCM系統編碼器原理圖每接收到一個語音信號,它根據語音信號的PCM編碼按照一定算法得到下次信號的預測值。把本次的語音信號的PCM編碼值與上次的預測值進行對比,得到一個信號的差值,這個差值可以用很少的位長來表示。通過自適應量化技術,根據不同的編碼信號自動調整量化的步長,減小量化誤差。28G.72632kb/sADPCM-編碼器在編碼器中先將輸入的8位PCM碼轉換為14位線性碼同預測信號相減產生差值信號對差值信號進行自適應量化產生4比特的ADPCM代碼c(n)一方面把c(n)送給解碼器,另一方面利用c(n)進行本地解碼,得到量化后的差值信號,同預測信號相加得到重建信號。自適應預測器采用二階極點,六階零點的零極點預測器為了使量化能適應語音、帶內數據以及信令等具有不同統計特性以及不同幅度的輸入信號,自適應要依據輸入信號的特性自動改變自適應數據參數來控制量階,這一功能由量化器定標因子自適應、自適應速度控制、音信號和轉換檢測等功能單元完成。音信號和轉換檢測器
xi(n)c(n)xr(n)xe(n)k2(n)k1(n).目的:在不顯著損失語音質量的前提下,將數碼率由64Kbps降到32Kbps29G.72632kb/sADPCM-解碼器解碼器的解碼過程實際已經包含在編碼過程中,但是增加了線性碼到PCM碼的轉換和同步編碼調整單元。同步編碼調整的作用是防止多級同步級聯編碼工作時產生誤差積累,以保持較高的轉換質量。c(n)xr(n)xp(n)xd(n)xc(n)
k1(n)y(n)30G.726ADPCM編譯碼器的輸入信號是G.711PCM代碼。G.711PCM碼采樣率是8kHz,每個代碼用8位表示,因此它的數據率為64kb/s。而G.726ADPCM的輸出代碼是“自適應量化器”的輸出,該輸出是用4位表示的差分信號,它的采樣率仍然是8kHz,它的數據率為32kb/s,這樣就獲得了2∶1的數據壓縮。313.語音參數編碼與混合編碼
波形編碼的目標是再現語音信號的時域波形,在32Kbps或之上的編碼速率下能夠得到非常好的語音質量,也可以在24Kbps或16Kbps速率下得到可接受的通話質量。但是很難進一步降低編碼速率。參數編碼的目標是構造語音的生成模型,發送端傳送該模型的參數,在接收端通過該模型來合成還原語音。可以實現很低的編碼速率(低至2.4Kbps)。混合編碼綜合利用了參數編碼速率低和波形編碼音質好的優點,實現了在中低速率下的較高質量的合成語音。32參數編碼的基本思想是利用語音信號生成的聲學模型,通過信號分析技術獲得關于該模型的頻譜包絡、基音周期、清濁音判斷等的相關信息,在接收端通過這些信息來合成還原語音信號三種參數編碼器通道聲碼器共振峰聲碼器
線性預測(LPC)聲碼器33線性預測(LPC)聲碼器輸入語音線性預測分析器編碼器基音檢測器解碼器線性預測合成器激勵信號產生器合成語音LPC聲碼器原理圖發送端接收端基于全極點模型的LPC分析編碼參數:LPC參數、基音周期、增益、清濁判斷不對預測殘差信號進行量化和傳輸(因此無法得到原來的波形)34LPC參數的編碼10階的全極點模型LPC分析LPC參數的選擇預測系數ai
量化誤差容易導致系統不穩定(合成濾波器的極點在單位圓外)
一般不直接對預測參數編碼傳輸
反射系數ki
可以保證合成器的穩定,但是不同的ki值對量化誤差的敏感度不一樣,需要采用非均勻量化用于LPC-10聲碼器線譜對參數LSP
是最常用的LPC編碼參數量化誤差相對獨立,即單個LSP參數的量化誤差只會影響其所對應的共振峰的頻譜包絡,不會影響真個頻譜ki和LSP都可以從ai中很容易求得35LPC聲碼器的相關標準1976年美國軍方確定LPC-10作為2.4Kbps速率編碼器的推薦編碼方式1985年美國官方接受LPC-10作為聯邦標準(FS-15)
速率極低合成語音質量很差、很不自然,主要是因為在清濁音的判斷以及基音周期的提取上不夠準確,合成激勵源信號和原來的LPC預測誤差信號相差較大1986年美國第三代保密電話裝置(STU-III)采用了LPC-10的增強型,LPC-10e
改善了激勵源:混合激勵代替LPC-10中的二元激勵;激勵脈沖加抖動處理;多脈沖激勵改進基音提取算法采用LSP代替ki36原始語音低通濾波100~3600HzA/D變換8KHz,12bits預加重計算分析相位基音分析存儲器低通濾波器清/濁音檢測2階逆濾波AMDF基音提取基音及清/濁音校正預測器分析存儲器計算RMS計算預測系數2幀參數存儲器2幀參數存儲器參數編碼誤差校正和映射并變串及同步產生編碼語音輸出pitchV/UVRMSRCLPC-10的編碼器框圖原始語音經過一低通濾波器之后,輸入A/D轉換器中,以8KHz速率采樣得到數字化語音,然后每180個采樣分為一幀(22.5ms),以幀為處理單元,提取語音特征參數并加以編碼傳送。A/D變換后輸出的數字化語音,經低通濾波,2階逆濾波后,再用平均幅度差函數(AMDF)計算基音周期,經過平滑、校正得到該幀的基音周期。同時對低通濾波后輸出的數字語音進行清/濁音檢測,經平滑、校正后得到改正的該幀的清/濁音標志。37編碼語音輸入并變串及同步檢測誤差檢測校正解碼參數解碼幀塊到基音塊的轉換與插值反射系數轉換成預測系數基音產生噪音產生清/濁音開關綜合器計算增益輸出存儲器去加重D/A變換低通濾波3600Hz合成語音輸出RMSRCpitchV/UV在收端首先通過查表,對碼流進行檢錯、糾錯,經過糾錯譯碼后即可得到基音周期、清/濁音標志、增益以及反射系數的數值。譯碼結果延時一幀輸出,使得輸出數據可以在過去一幀、現在一幀、將來一幀三幀內進行平滑。由于每幀語音只傳輸一組參數,考慮一幀內可能有不止一個基音周期,因此要對接收數值進行幀塊到基音塊的轉換和插值。LPC-10的解碼器框圖38濁音清音Pitching/voicing77RMS55sync11k155k255k355k455k54k64k74k84k93k102誤差校正020總計5453LPC-10的碼本設計39LPC-10聲碼器合成語音與原始語音的比較 LPC系統中,全部參數量化為2.4kb/s,如果不考慮信道誤碼,可懂度得分:3.6KHz原始語音LPC-10合成語音DRT高于95%90%正確DRT(有噪聲)92%~93%高于82%正確DAM高于654840語音混合編碼LPC聲碼器的主要問題:過于簡化的二元激勵源(周期脈沖或隨機噪聲)是導致合成語音質量較差的根本原因混合編碼的基本方法就是在LPC聲碼器的基礎上,采用更高質量的波形編碼算法來優化激勵源信號激勵源采取周期脈沖和噪聲信號的混合體(語音的長時相關模型)閉環搜索算法—合成分析法(analysis-by-synthesis)來選擇最佳激勵源信號最佳激勵源選擇標準:采用感覺加權均方誤差最小判決準則41語音信號的短時-長時預測
(short-termandlong-termprediction)語音信號樣本間的短時相關特性
p取值很小,10-12,一般在一個基音周期以內由聲道共振峰調制產生語音信號樣本間的長時相關特性
P為基音周期不計長時相關的線性預測合成模型計入長時相關的線性預測合成模型激勵發生器1/A(Z)語音激勵發生器1/A(Z)1/P(Z)語音42短時預測<經典的線性預測>去除了信號的短時相關性,殘差信號近似于聲門波激勵信號長時預測去除信號中相鄰基音周期間的相關性,殘差信號類似于噪聲信號語音信號的短時-長時預測
(short-termandlong-termprediction)
s(n)?=--piiiza1+?-=+--11)(kkPkzb+__u(n)v(n)
短時預測
長時預測43語音信號的短時-長時預測
(short-termandlong-termprediction)
u(n)中還有比較明顯的周期脈沖,需要較多的量化比特v(n)中脈沖不再明顯,信號更接近于白噪聲信號,易于量化LPC參數譜44在混合編碼算法中,需要對短時預測(LPC)參數、長時預測參數b,基音周期P,以及預測殘差信號v(n)進行量化編碼。算法的重點在v(n)的編碼
v(n)類似白噪聲信號不是直接對v(n)的每個樣本點編碼(編碼速率太高)一種作法是設定一個矢量碼本,其中的每一個矢量代表一種可能 的v(n),對每一幀語音,都是從這個矢量碼本中選擇其中一個最佳 矢量作為v(n)的替代品進行合成語音
假定一幀語音有256個樣點,如果直接對每個v(n)的樣點用8bit量化,需要256*8bit。假定我們選擇的矢量碼本中有256個矢量,每一幀語音選擇其中一個矢量作為v(n)的近似,則只需要8個bit就可以量化一幀語音的v(n)。現在問題的關鍵是如何從這256個矢量的碼本中選擇跟當前語音的v(n)最接近的一個矢量?合成分析法(Analysis-by-synthesis)
45基于感覺加權濾波器(perceptuallyweightedfilter)和合成分析法(analysis-by-synthesis)的碼字矢量選擇算法激勵發生器線性預測綜合濾波器合成器均方誤差最小估值感覺加權濾波LPC分析原始語音信號LPC參數、P、b+合成語音誤差信號激勵發生器是從碼本里依次選擇一個碼字矢量,將所得的合成語音與原始語音相比較,得到一個誤差信號,該誤差信號經過聽覺感知加權后,可以計算其均方誤差。比較碼本里每一個碼字矢量所對應的均方誤差,選擇誤差最小的一個碼字適量作為v(n)的近似矢量。46感覺加權濾波器感覺加權濾波器的依據是人耳的聽覺掩蔽效應。在語音頻譜中能量較高的頻段的噪聲相對于能量較低頻段的噪聲不易被感知,在度量原始語音與合成語音之間的誤差時記入此因素,語音能量高的頻段允許誤差大一些,能量低的頻段允許誤差小一些。引入頻域感覺加權濾波器來計算二者的誤差并使其達到最小:47感覺加權濾波器取感覺加權濾波器在z域的表達式為:感覺加權濾波器的特性由預測系數和加權因子確定。r=1,W(z)=1,沒有加權r=0,W(z)=A(z),加權系數和語音的共振峰(頻譜包絡)成反比在8KHz采樣頻率下,一般取r=0.8W(z)的實際作用就是使得實際誤差信號的譜不再平坦,而是有著與語音信號譜相似的包絡形狀。48感覺加權濾波器A(z)1/A(z),信號頻譜包絡A(z/0.8)W(z)(r=0.8)可見,加權濾波器跟信號的頻譜包絡大至成反比關系,也就是說,在信號能量大的地方,誤差對整體誤差的貢獻較小(因為人耳對這些誤差不太敏感),信號能量小的地方,誤差對整體誤差的貢獻較大。這樣,可以使得所選擇的激勵源碼字矢量合成的語音聽覺上效果最好。49多脈沖激勵線性預測聲碼器(Multi-pulselinearpredictivecoding,MPLPC)規則脈沖激勵線性預測聲碼器(Regularpulseexcitationlinearpredictivecoding,RPELPC)碼激勵線性預測聲碼
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論