

下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、必爾牘 N 理2普實驗報告實驗課程名稱:語音信號處理實驗姓名: _班級:20120811 學號:_實驗序號實驗名稱實驗過程實驗結果實驗成績實驗一語音信號的端點檢測實驗二語音信號的特征提取實驗三語音信號的基頻提取指導教師張磊_實驗教室21B#29321B#293_實驗時間 20152015 年 4 4 月 1212 日實驗成績_實驗一 語音信號的端點檢測一、實驗目的1、 掌握短時能量的求解方法2、 掌握短時平均過零率的求解方法3、 掌握利用短時平均過零率和短時能量等特征,對輸入的語音信號進行端點檢 測。二、實驗設備HP計算機、Matlab軟件三、實驗原理1、短時能量語音信號的短時能量分析給出了反
2、應這些幅度變化的一個合適的描述方法 對于信號x(n),短時能量的定義如下:2 2 2En二、x(m)w(n _ m)=xx (m)h(n _ m) = x (n) h(n)m二;m :-:2、短時平均過零率短時平均過零率是指每幀內信號通過零值的次數。 對于連續語音信號,可以 考察其時域波形通過時間軸的情況。 對于離散信號,實質上就是信號采樣點符號 變化的次數。過零率在一定程度上可以反映出頻率的信息。 短時平均過零率的公 式為:100Znsgnx(m) - sgnx(m -1) w(n - m)2m=jod1nN /二;、sgn Xw(m)_sg nXw(m_1)2m f其中,sgn.是符號函數
3、,即彳x(n)O冊皿:-1 x(n)“3、端點檢測原理能夠實現這些判決的依據在于,不同性質語音的各種短時參數具有不同的概 率密度函數,以及相鄰的若干幀語音應具有一致的語音特性, 它們不會在S、U、V之間隨機地跳來跳去。要正確判斷每個輸入語音的起點和終點, 利用短時平均 幅度參數E和短時平均過零率Z可以做到這一點。首先,根據濁音情況下的短時能量參數的概率密度函數 P(E|V)確定一個閾 值參數 EH,EH值一般定的較高。當一幀輸入信號的短時平均幅度參數超過 EH時,就可以判定該幀語音信號不是無聲,而有相當大的可能是濁音。根據 EH可 判定輸入語音的前后兩個點 Ai和A2。在 Ai和 A2之間的部
4、分肯定是語音段,但語為此,再設定一個較低的閾值參數 EL,由 Ai點向前找,當短時能量由大到 小減至 EL可以確定點 Bi。類似地,可以由 A2點向后找,確定 B2點。在 Bi和 B2之間的仍能肯定是語音段。然后由 Bi向前和 B2向后,利用短時平均過零率進行 搜索。根據無聲情況下的短時平均過零率,設置一個參數Zs,如果由 Bi向前搜索時,短時平均過零率大于 Zs的3倍,則認為這些信號仍屬于語音段,直到短 時平均過零率下降到低于3倍的 Zs,這時的點 Ci就是語音的精確的起點。對于 終點也做類似的處理,可以確定終點 C2。采用短時平均過零率的原因在于,Bi點以前可能是一段清輔音,它的能量相當弱
5、,依靠能量不可能將它們與無聲段 分開。而對于清輔音來說,它們的過零率明顯高于無聲段,因而能用這個參數 將二者區分開來。存在噪聲的情況下,正常的過零率計算會存在一定的誤差, 解決這個問題的 一種方法是對上述過零率定義做一個簡單的修改, 即設立一個門限T,將過零率 的含義修改為跨過正負門限的次數,如圖2。圖2門限短時平均過零率于是,有:1匸】Zn=2、sgnx(m)-T-sgnx(m-1)-Tsgnx(m) T _sgnx(m-1) Tw(n_m)這樣計算的短時平均過零率就有一定的抗干擾能力。即使存在小的隨機噪 聲,只要它不超過正負門限所構成的帶,就不會產生虛假過零率。四、實驗步驟及程序實驗程序:
6、function poin t_check()s 仁 wavread(ma n. wav);s=s1/max(abs(s1);s=filter(1 -0.9375,1,s);plot(s);len=len gth(s);roun d=160;repeat=80;inc=roun d-repeat;%b_le n-2*repeat;ka=ceil(le n-roun d)/(r oun d-repeat)+1;s=s;zeros(r oun d-repeat)*(ka-1)+ro un d-le n,1);len=len gth(s);w=zeros(r oun d,ka);for i=1:ka
7、 for k=1:ro undw(k,i)=s(k+(i-1)*(rou nd-repeat),1); endend門限門限門限門限門限門限時間ST=0.01;F=zeros(ka,ro un d);for i=1:kafor k=0:ro un d-1for j=1:r oun d-kF(ka,k+1)=F(ka,k+1)+abs(w(j,i)-w(j+k,i);endif(k0&w(k+2,i)0)z=sig n(w(k+1,i)-ST)-sig n(w(k+2,i)+ST);elseif(w(k+1,i)0)z=sig n(w(k+2,i)-ST)-sig n(w(k+1,i)+
8、ST);endif(z=2)f(i,1)=f(i,1)+1;endendendendamp=sum(abs(w).A2,1);實驗結果截圖:0.8五、實驗結果與分析這次實驗利用MATLAB對信號進行分析和處理,利用短時過零率和短時能 量,對語音信號的端點進行檢測。我之前雖然接觸過MATLAB軟件,但從未進行過有關語音信號的操作,在實驗過程中欠缺獨立性,代碼是參考網上的,在理 解的基礎上借鑒。學習是無止境的,現在的動手能力不強也是由于之前的松懈造 成的,以后一定要多動手,畢竟能力是立身之本。實驗二語音信號的特征提取、實驗目的1、掌握語音信號的Mel倒譜特征(MFCC的求解方法2、掌握語音信號的線
9、性預測原理以及LPC特征的求解方法二、實驗設備HP計算機、Matlab軟件三、實驗原理1、MFCC特征原理及求解方法在語音識別和說話人識別中,常用的語音特征是基于Mel頻率的、倒譜系數(Mel Frequency Cepstrum Coefficien,簡稱MFCC)。由于MFCC參數是將人耳 的聽覺感知特性和語音的產生機制相結合,因此目前大多數語音識別系統中廣泛使用這種特征。研究者根據心理學實驗得到了類似于耳蝸作用的一組濾波器組,這就是Mel頻率濾波器組。Mel頻率可以用公式表達如下:Mel frequency =2595 log(1 f / 700)在實際應用中,MFCC倒譜系數計算過程如
10、下:(1)將信號進行分幀,預加重和加漢明窗處理,然后進行短時傅立葉變換 得到其頻譜;(2)求出頻譜平方,即能量譜,并用M個Mel帶通濾波器進行濾波,由 于每一個頻帶中分量的作用在人耳中是疊加的,因此將每個濾波頻帶 內的能量進行疊加,這時第k個濾波器輸出功率譜 x (k);(3)將每個濾波器的輸出取對數,得到相應頻帶的對數功率譜;并進行反 離散余弦變換,得到L個MFCC系數,如下式所示。一般L取1216個左右;M5 =為 logx(k)cos(k 0.5)n/Mn =1,2,丄k T(4)這種直接得到的MFCC特征作為靜態特征,將這種靜態特征做一階 和二階差分,得到相應的動態特征。2、線性預測原
11、理及LPC特征求解方法根據參數模型功率譜估計的思想,可以將語音信號 x(n)看作是由一個輸入序 列 u(n)激勵一個全極點的系統(模型)H(z)而產生的輸出,如圖3所示。u(n)x(n)- H- s(n)圖 3 語音信號的模型化系統的傳遞函數為:Gp1ajZ其中G為常數,ai為實數,p為模型的階數。顯而易見,這種模型是以系數 ai和 增益G為模型參數的全極點模型,即AR模型。用系數ai可以定義一個p階線性預測器 F(z)pF(z)八 ajZi絲這個p階預測器從時域角度可以理解為,用信號的前p個樣本來預測當前的 樣本得到預測值 X(n),pX(n)八 aiX(n-i)im因為預測器 F(z)是用
12、AR模型的系數ai來構造的,而AR模型是在最小均 方意義上對數據的擬合,所以預測器 F(z)必然是一個最佳預測器,即此時預測 器的預測誤差短時總能量最小。語音信號的線性預測分析就是根據這一性質,從語音信號 x(n)出發,依據最小均方誤差準則,估計出一組線性預測器的系數ai,它就是我們所要求的信號AR模型的系數。ai被稱為線性預測系數或LPC系數。預測器的預測誤差 e(n)為:pe( n)=x( n)-x( n)=x( n) 一 aix( n-i)i =H(z)=由上式可知,e(n)是輸入為 x(n),且具有如下形式傳遞函數的濾波器的輸出pA(z) =1 _F(z) =1aiz因此稱 A(z)為
13、預測誤差濾波器。比較式(4-1)和式(4-5)可知 A(z)二 G/H (z), 即預測誤差濾波器是系統 H (z)的逆濾波器。為了在最小均方誤差意義上計算一組最佳預測系數,定義短時預測均方誤差 為p222En二 e (n) = x(n) -X(n)二 x(n)ajX(n -i)nnni =1由于語音信號的時變特性,線性預測分析應該在短時的語音段上進行,即按幀進行。因此上式的求和通常也是在一幀語音的范圍內進行。為了使En達到最小,ai必須滿足 也/玄=0, (k=1,2,p)。則有:p-(2、x(n)x(n-k)-2、x(n-k)x(n-i)ni=1n這樣可以得到以ai為變量的線性方程組px(
14、n)x(n-k)八 ax(n -k)x(n-i),k=1,2, pni T n要構造信號的AR模型,還應估算增益因子G。將系統傳遞函數轉化成差分 方程的形式:px(n)八 aiX(n -k) Gu(n)i斗則預測誤差 e(n)和殘差能量 En分別計算如下:e(n)八x(n) x(n)Gu(n)nnEn二 G2 u2(n)n激勵信號 u(n)無法準確計算,但根據前文所述的語音產生模型,在濁音情況 下,激勵可以看作是準周期的脈沖串;在清音時,可以看作為高斯白噪聲。因此 輸入信號總能量可以認為近似為 1,這樣估算增益因子 &= E1/2o這種計算只是 一種近似的方法,。-:En:ak為了使模
15、型的假定能夠很好地符合語音產生的模型,需要考慮如下兩個因 素。(1)模型階數p的選擇階數p應與共振峰的個數相吻合,通常一對極點對應一個共振峰,因此當共 振峰數為5時,應取p=10。考慮到一些情況,一般按如下的方式計算模型階數 p =2D 1,其中D為共振峰的個數。(2)通過預加重進行高頻提升由于聲門脈沖形狀和口唇輻射的影響,語音信號的頻譜在總趨勢上會產生高 頻衰落的現象,大約每倍程下降6dB。要抵消這一影響,通常在LPC分析之前 采用一個非常簡單的一階FIR濾波器進行預加重以進行高頻提升,其傳遞函數為1 - - zJ,其中為預加重系數,對10kHz采樣的語音,一般取:-=0.95。大量的 實踐
16、證明:LPC參數是反映語音信號特征的良好參數。附:萊文遜一杜賓遞推算法該算法過程如下:(1)計算自相關系數 Rn(j),j =0,1,., p ;(2)E(0)二 Rn(0) ;(3)(4)iT ;開始按如下公式進行遞推運算:i(i4)jj mE(i 4)RJi)- a(R(i -j)kia, = ki-kia (,j h , . j.-,1E=(1_好疋(7(5)i 1。若i則算法結束退出,否則返回第(4)步。四、實驗步驟及程序MFC特征提取程序:close allclearclcx=wavread(N:sec on dma n. wav);ban k=melba nkm(24,256,80
17、00,0,0.5,m);ban k=full(ba nk);ban k=ba nk/max(ba nk(:);for k=1:12n=0:23;dctcoef(k,:)=cos(2* n+1)*k*pi/(2*24);endw = 1 + 6 * sin(pi * 1:12 ./ 12);w = w/max(w);% 預加重濾波器xx=double(x);xx=filter(1 -0.9375,1,xx); %語音信號分幀xx=enframe(xx,256,80); % 計算每幀的 MFCC 參數 for i=1:size(xx,1)y = xx(i,:);s = y .* hammi ng(
18、256);t = abs(fft(s);t = t.A2;c1=dctcoef * log(ba nk * t(1:129);c2 = c1.*w;m(i,:)=c2;endfigureimagesc(m);xlabel(幀數);ylabel(幅度);title(MFCC);實驗結果截圖:LPC特征提取程序:clearclcI = wavread(N:secondman.wav);% 讀入原始語音%subplot(3,1,1),plot(I);title(原始語音波形)%對指定幀位置進行加窗處理Q = I;N = 256; % 窗長Hamm = hammi ng(N); % 加窗frame =
19、 60;%需要處理的幀位置M = Q(frame - 1) * (N / 2) + 1):(frame - 1) * (N / 2) + N);Frame = M .* Hamm;% 加窗后的語音幀B,F,T = specgram(I,N,N/2,N);m,n = size(B);for i = 1:mFTframe1(i) = B(i,frame);endP =50;%i nput(請輸入預測器階數=);ai = lpc(Frame,P); % 計算 lpc 系數LP = filter(0 -ai(2:e nd),1,Frame); %建立語音幀的正則方程FFTlp = fft(LP);E
20、= Frame - LP; % 預測誤差figuresubplot(2,1,1),plot(1:N,Frame,1:N,LP,-r);grid;200040006000800010000120001400016000幀數MFCCtitle(原始語音和預測語音波形)subplot(2,1,2),plot(E);grid;title(預測誤差);figurefLen gth(1 : 2 * N) = M,zeros(1,N);Xm = fft(fLe ngth,2 * N);X = Xm .* conj(Xm);Y = fft(X , 2 * N);Rk = Y(1 : N);PART = sum
21、(ai(2 : P + 1) .* Rk(1 : P);G = sqrt(sum(Frame.A2) - PART);A = (FTframel - FFTlp(1 : len gth(F) ./ FTframelsubplot(2,1,1),plot(F,20*log(abs(FTframe1),F,(20*log(abs(1 ./ A),-r); grid;xlabel(頻率 /dB);ylabel(幅度);title(短時譜);subplot(2,1,2),plot(F,(20*log(abs(G ./ A);grid;xlabel(頻率 /dB);ylabel(幅度);title(LP
22、C 譜);figure%求出預測誤差的倒譜pitch = fftshift(rceps(E);M_pitch = fftshift(rceps(Frame);subplot(2,1,1),plot(M_pitch);grid;xlabel(語音幀);ylabel(/dB);title(原始語音幀倒譜);subplot(2,1,2),plot(pitch);grid;xlabel(語音幀);ylabel(/dB);title(預測誤差倒譜);figure%畫出語譜圖ail = lpc(I,P); % 計算原始語音 Ipc 系數LP1 = filter(0 -ai(2:e nd),1,l); %建
23、立原始語音的正則方程subplot(2,1,1);specgram(I,N,N/2,N);title(原始語音語譜圖);subplot(2,1,2);specgram(LP1,N,N/2,N);title(預測語音語譜圖);實驗結果截圖:100020003000400050006000700080009000 10000Time預測語音語譜圖50-5-10原始語音幀倒譜050100150200語音幀預測誤差倒譜25030010-2-3501002000150語音幀250300WVCDeuaeb原始語音語譜圖ooOTime100200a/i IV、= = A %u_ / _71短時譜0-100-
24、200-30010 2030405060頻率/dB70LPC 譜1000-100102050703040頻率/dBri fl J 1f 、-VA人i 卡屮 w、760原始語音和預測語音波形預測誤差0.10.050-0.05-0.110015020025030050原始語音波形1五、實驗結果與分析這次實驗利用MATLAB對信號進行分析和處理,主要就是進行語音線性預 測,語音線性預測的基本思想是:一個語音信號的抽樣值可以用過去若干個取樣 值的線性組合來逼近。通過使實際語音抽樣值與線性預測抽樣值的均方誤差達到 最小,可以確定唯一的一組線性預測系數。做了LPC特征提取的實驗之后,促進了我對MFCC特征
25、提取進行探究和驗證,此次試驗讓我對相關知識加深了理 解。實驗三語音信號的基頻提取一、實驗目的1、 掌握語音信號基頻的概念,加深對基頻刻畫聲調特征作用的理解。2、 掌握語音信號基頻特征的典型求解方法二、實驗設備HP計算機、Matlab軟件三、實驗原理1、 基頻概念的理解基音檢測的方法大致可分為三類: 波形估計法。直接由語音波形來估計 基音周期,分析出波形上的周期峰值。包括并行處理法、數據減少法等;相關處理法。這種方法在語音信號處理中廣泛使用, 這是因為相關處理法抗波形的 相位失真能力強,另外它在硬件處理上結構簡單。 包括波形自相關法、平均振幅 差分函數法(AMDF)、簡化逆濾波法(SIFT)等;
26、 變換法。將語音信號變換 到頻域或倒譜域來估計基音周期,利用同態分析方法將聲道的影響消除, 得到屬 于激勵部分的信息,進一步求取基音周期,比如倒譜法。雖然倒譜分析算法比較 復雜,但基音估計效果較好。這里我們只考慮自相關方法的基頻提取。2、 自相關方法的基頻提取濁音信號的自相關函數在基音周期的整數倍位置上出現峰值,而清音的自相關函數沒有明顯的峰值出現,因此檢測自相關函數是否有峰值就可以判斷是清音 或濁音,峰一峰值之間對應的就是基音周期。為了提高自相關方法檢測基音周期的準確性,需要進行一些前期的預處理。1)預處理語音信號的低幅值部分包含大量的共振峰信息,而高幅值部分包含較多 的基音信息。因此,任何
27、削減或者抑制語音低幅度部分的非線性處理都會使 自相關方法的性能得到改善。中心削波即是一種非線性處理,用以消除語音 信號的低幅度部分,其削波特性如圖4所示,數學表達形式為y(n) =C(n)二x(n) - L0、x(n )+Lx(n) CL|x(n) 4 CLx(n) -CL-CL+1-1+CL圖5三電平削波函數其中削波電平 CL由語音信號的峰值幅度來確定,它等于語音段最大幅度的一個 固定百分數,一般取最大信號幅度的60%70%。這個門限的選擇是重要的,一 般在不損失基音信息的情況下應盡可能選得高些,以達到較好的效果。經過中心削波后只保留了超過削波電平的部分,其結果是削去了許多和聲道響應有關的波
28、 動。中心削波后的語音再計算自相關函數, 這樣在基音周期位置呈現大而尖的峰 值,而其余的次要峰值幅度都很小。 據報道使用這種方法,對電話帶寬的語音在 信噪比低至18dB的情況下獲得了良好的性能。計算自相關函數的運算量是很大的,其原因是傳統的計算機進行乘法運算非 常費時。盡管近年來隨著數字信號處理器的廣泛使用, 實時地計算自相關函數已 經不是問題,但在基音檢測中仍然有一些減少短時自相關運算的有效方法。如可對中心削波函數進行修正,采用三電平中心削波的方法,如圖5所示。其削波函 數為1 x(n) CLy(n) =Cx(n) = 0|x(n)伍 C1 x(n) v CL即削波器的輸出在 x(n) CL
29、時為1,x(n 廠:-CL時為-1,除此以外均為零。 雖然這一處理會增加剛剛超過削波電平峰的重要性,但大多數次要的峰被濾除掉 了,而只保留了明顯的周期性峰。*Cx此外,還可以用一個通帶為900Hz的線性相位低通濾波器濾除高次諧波分 量。這樣處理后的信號,基本上只含有第一共振峰以下的基波和諧波分量。實驗表明,用這種方法做預處理,對改善自相關和平均幅度差函數法的基音檢測都有 明顯的效果。2)基于自相關函數的基音檢測短時自相關函數在基音周期的各個整數倍點上有很大的峰值,只要找到第一最大峰值點的位置,并計算它與原點的間隔,便能估計出基音周期。但實際上并 不是這么簡單,第一個最大峰值點的位置有時不能與基
30、音周期相吻合。產生這種 情況的原因有以下兩個方面。第一方面是與窗的長度有關。一般認為窗長至少應 大于兩個基音周期,才可能有較好的效果。第二方面與聲道特性的影響有關。有的情況下,即使窗長已經選得足夠長,第一個最大峰值點與基音周期仍不一致, 這就是聲道共振峰特性的干擾。經過上述帶通濾波的預處理,就可以消除大部分 的共振峰的影響。但是,如果希望減少自相關計算中的乘法運算,可以把上述中心削波后的信號y(n)的自相關用兩個信號的互相關代替,其中一個信號是y(n),令一個信號是對y(n)進行三電平量化產生的結果 y(n)。顯然,y(n) 只有-1,0,+1三種可能的取值,因而這里的互相關計算只需做加減法,而這個 互相關序列的周期性與y(n)的自相關序列近似相同。下面結合L.R.Rabiner篇論文中介紹的具體例子來敘述關于自相關函數的 基音檢測方法。假設信號的采樣率為10kHz,窗序列采用300點的矩形窗,幀疊200點。這時對每一幀進行基音周期估計的步驟如下:(1)用900Hz低通濾波器對一幀語音信號x(n)進行濾波,并去掉開頭的20個輸出值不用,得到x (n);(2)分別求x (n)的前部100個樣點和后部100個樣點的最大幅度,并取 其中較小的一個,乘以因子0.68作為門限電平 CL;(3)對x(n)分別進行中心削波得到y(n)和三電
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 江蘇省無錫錫東片2025屆初三語文試題中考模擬試題含解析
- 五邑大學《開放性實驗》2023-2024學年第二學期期末試卷
- 蘆溪縣2025年數學三下期末統考模擬試題含解析
- 遼寧稅務高等專科學校《機電工程專業英語》2023-2024學年第一學期期末試卷
- 嘉興職業技術學院《臨床流行病學》2023-2024學年第二學期期末試卷
- 擔保協議書的范例二零二五年
- 二零二五場地轉租協議書
- 知識產權委托代理協議書二零二五年
- 學校校長聘用合同書協議書二零二五年
- 二零二五影視劇導演聘用勞動合同書例文
- 愛護牙齒-兒童保健課件
- 電廠水化驗培訓
- 社區衛生服務中心的運營與管理策略
- DB4401∕T 10.10-2019 反恐怖防范管理 第10部分:園林公園
- 機動車檢測站可行性研究報告
- 《醫學影像檢查技術學》課件-腹部X線攝影
- GB/T 30889-2024凍蝦
- 地產營銷培訓課件
- 【Flywheel】2024年電商消費趨勢年度報告
- 石墨勻質板施工方案
- 國核鈾業發展有限責任公司招聘筆試沖刺題2025
評論
0/150
提交評論