數(shù)字語音處理及MATLAB仿真rar第二章_第1頁
數(shù)字語音處理及MATLAB仿真rar第二章_第2頁
數(shù)字語音處理及MATLAB仿真rar第二章_第3頁
數(shù)字語音處理及MATLAB仿真rar第二章_第4頁
數(shù)字語音處理及MATLAB仿真rar第二章_第5頁
已閱讀5頁,還剩53頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、數(shù)字語音處理及MATLAB仿真rar第二章2.1 概述概述 本章重點介紹語音信號產(chǎn)生的數(shù)字模型,對語音信本章重點介紹語音信號產(chǎn)生的數(shù)字模型,對語音信號的特性和聽覺特性做一般介紹。號的特性和聽覺特性做一般介紹。 2.2 語音的發(fā)音機理語音的發(fā)音機理2.2.1 人的發(fā)音器官人的發(fā)音器官1.組成組成 肺和氣管組成聲源;肺和氣管組成聲源; 喉和聲帶稱為聲門;喉和聲帶稱為聲門; 由咽腔、口腔、鼻腔由咽腔、口腔、鼻腔 組成聲道;組成聲道; 圖圖2.1 發(fā)音器官機理模型發(fā)音器官機理模型 2. 功能功能肺:產(chǎn)生壓縮氣體,通過氣管傳送到聲音生成系肺:產(chǎn)生壓縮氣體,通過氣管傳送到聲音生成系 統(tǒng)。統(tǒng)。喉:控制聲帶運

2、動的復雜系統(tǒng)。主要包括:環(huán)狀軟喉:控制聲帶運動的復雜系統(tǒng)。主要包括:環(huán)狀軟 骨、甲狀軟骨、杓狀軟骨、聲帶。骨、甲狀軟骨、杓狀軟骨、聲帶。 聲門:聲門:聲帶之間的間隙稱為聲門。聲帶之間的間隙稱為聲門。 主要功能:主要功能:產(chǎn)生激勵產(chǎn)生激勵。 聲道:聲道聲道:聲道指聲門至嘴唇的所有發(fā)音器官。指聲門至嘴唇的所有發(fā)音器官。 包括:咽喉、口腔和鼻腔。包括:咽喉、口腔和鼻腔。 主要功能:主要功能:傳輸調(diào)制聲波傳輸調(diào)制聲波。 聲道的形狀變化由舌、軟腭、唇、牙決定聲道的形狀變化由舌、軟腭、唇、牙決定。 口腔包括:上下唇、上下齒、上下齒齦、上下腭、口腔包括:上下唇、上下齒、上下齒齦、上下腭、舌和小舌等部分。舌和

3、小舌等部分。 上腭又分為:硬腭和軟腭兩部分;上腭又分為:硬腭和軟腭兩部分; 舌又分為:舌尖、舌面和舌根三部分。舌又分為:舌尖、舌面和舌根三部分。 鼻腔在口腔上面,靠軟腭和小舌將其與口腔隔鼻腔在口腔上面,靠軟腭和小舌將其與口腔隔開。當小舌下垂時,鼻腔和口腔便耦合起來,當小開。當小舌下垂時,鼻腔和口腔便耦合起來,當小舌上抬時,口腔與鼻腔是不相通的。口腔和鼻腔都舌上抬時,口腔與鼻腔是不相通的。口腔和鼻腔都是發(fā)音時的共鳴器。是發(fā)音時的共鳴器。圖圖2.3 聲道縱剖面圖聲道縱剖面圖2.2.2 語音生成語音生成 圖圖2.1為語音生成其機理模型。空氣由肺部排入喉部,為語音生成其機理模型。空氣由肺部排入喉部,經(jīng)

4、過聲帶進入聲道,最后由嘴輻射出聲波,這就形成了語經(jīng)過聲帶進入聲道,最后由嘴輻射出聲波,這就形成了語音。在聲門(聲帶)以左,稱為音。在聲門(聲帶)以左,稱為“聲門子系統(tǒng)聲門子系統(tǒng)”,它負責,它負責產(chǎn)生激勵振動;右邊是產(chǎn)生激勵振動;右邊是“聲道系統(tǒng)聲道系統(tǒng)”和和“輻射系統(tǒng)輻射系統(tǒng)”。當。當發(fā)不同性質(zhì)的語音時,激勵和聲道的情況是不同的,它們發(fā)不同性質(zhì)的語音時,激勵和聲道的情況是不同的,它們對應的模型也是不同的。對應的模型也是不同的。 圖圖 2.1 發(fā)音器官機理模型發(fā)音器官機理模型 語音生成動作可分為兩種功能:語音生成動作可分為兩種功能: (1 1)激勵)激勵 (2 2)調(diào)制)調(diào)制2.2.2 語音生成

5、語音生成-濁音濁音 空氣流經(jīng)過聲帶時,如果聲帶是崩緊的,則聲空氣流經(jīng)過聲帶時,如果聲帶是崩緊的,則聲帶將產(chǎn)生張弛振動,即聲帶將周期性地啟開和閉合。帶將產(chǎn)生張弛振動,即聲帶將周期性地啟開和閉合。聲帶啟開時,空氣流從聲門噴射出來,形成一個脈聲帶啟開時,空氣流從聲門噴射出來,形成一個脈沖,聲帶閉合時相應于脈沖序列的間隙期。因此,沖,聲帶閉合時相應于脈沖序列的間隙期。因此,這種情況下在聲門處產(chǎn)生出一個準周期脈沖狀的空氣這種情況下在聲門處產(chǎn)生出一個準周期脈沖狀的空氣流。該空氣流經(jīng)過聲道后最終從嘴唇輻射出聲波,這流。該空氣流經(jīng)過聲道后最終從嘴唇輻射出聲波,這便是濁音語音。這個準周期脈沖的周期即為基音周期。

6、便是濁音語音。這個準周期脈沖的周期即為基音周期。 基音頻率是由聲帶張開閉合的周期所決定的:基音頻率是由聲帶張開閉合的周期所決定的: 男性的基音頻率一般為男性的基音頻率一般為50250Hz; 女性基音頻率為女性基音頻率為100500Hz。2.2.2 語音生成語音生成-清音清音 空氣流經(jīng)過聲帶時,如果聲帶是完全舒展開來的,空氣流經(jīng)過聲帶時,如果聲帶是完全舒展開來的,則肺部發(fā)出的空氣流將不受影響地通過聲門。空氣流則肺部發(fā)出的空氣流將不受影響地通過聲門。空氣流通過聲門后,會遇到兩種不同情況。一種情況是,如通過聲門后,會遇到兩種不同情況。一種情況是,如果聲道的某個部位發(fā)生收縮形成了一個狹窄的通道,果聲道

7、的某個部位發(fā)生收縮形成了一個狹窄的通道,當空氣流到達此處時被迫以高速沖過收縮區(qū),并在附當空氣流到達此處時被迫以高速沖過收縮區(qū),并在附近產(chǎn)生出空氣湍流,這種湍流空氣通過聲道后便形成近產(chǎn)生出空氣湍流,這種湍流空氣通過聲道后便形成所謂摩擦音或清音。所謂摩擦音或清音。2.2.2 語音生成語音生成-爆破爆破音音 另一種情況是,如果聲道的某個部位完全閉合在一起,另一種情況是,如果聲道的某個部位完全閉合在一起,當空氣流到達時便在此處建立起空氣壓力,閉合點突然當空氣流到達時便在此處建立起空氣壓力,閉合點突然開啟便會讓氣壓快速釋放,經(jīng)過聲道后便形成所謂爆破開啟便會讓氣壓快速釋放,經(jīng)過聲道后便形成所謂爆破音。音。

8、 共振峰頻率或共振峰共振峰頻率或共振峰 聲音產(chǎn)生后,便沿著聲道進行傳播。聲道可以看成聲音產(chǎn)生后,便沿著聲道進行傳播。聲道可以看成是一根具有非均勻截面的聲管,在發(fā)音時起著共鳴器的是一根具有非均勻截面的聲管,在發(fā)音時起著共鳴器的作用。作用。聲音進入聲道后,其頻譜必定會受到聲道的聲音進入聲道后,其頻譜必定會受到聲道的共振特性的影響,聲道具有一組共振頻率,稱為共共振特性的影響,聲道具有一組共振頻率,稱為共振峰頻率或共振峰。振峰頻率或共振峰。聲道的頻譜特性便主要地反映聲道的頻譜特性便主要地反映出這些共振峰的不同位置以及各個峰的頻帶寬度。出這些共振峰的不同位置以及各個峰的頻帶寬度。共振峰及其帶寬取決于聲道

9、的形狀和尺寸,因而不共振峰及其帶寬取決于聲道的形狀和尺寸,因而不同的語音對應于一組不同的共振峰參數(shù)。同的語音對應于一組不同的共振峰參數(shù)。2.3 語音的聽覺機理語音的聽覺機理2.3.1 聽覺器官聽覺器官 人的聽覺器官包括:外耳、中耳和內(nèi)耳人的聽覺器官包括:外耳、中耳和內(nèi)耳圖圖2.3 2.3 人耳結構示意圖人耳結構示意圖 1. 1.外耳外耳 外耳由耳廓外耳由耳廓(耳翼耳翼)、外耳道和耳鼓(鼓膜)組成。、外耳道和耳鼓(鼓膜)組成。 2.2.中耳中耳 組成:包括三塊聽小骨組成:包括三塊聽小骨:錘骨,砧骨和鐙骨。錘骨,砧骨和鐙骨。 作用:阻抗匹配和限幅作用:阻抗匹配和限幅 外耳和中耳的綜合作用相當于一個

10、介于外耳和中耳的綜合作用相當于一個介于500Hz到到6kHz之間的平滑的帶通濾波器,可以用有限沖激響應之間的平滑的帶通濾波器,可以用有限沖激響應(FIR-Finite Impulse Response)濾波器來模擬。濾波器來模擬。 3. 內(nèi)耳內(nèi)耳 內(nèi)耳是一個充滿液體的骨質(zhì)結構,由前庭、圓形窗、內(nèi)耳是一個充滿液體的骨質(zhì)結構,由前庭、圓形窗、卵形窗及耳蝸組成。卵形窗及耳蝸組成。2.3.2 耳蝸耳蝸的信號處理機制的信號處理機制 當聲音經(jīng)外耳傳入中耳時,鐙骨的運動引起耳當聲音經(jīng)外耳傳入中耳時,鐙骨的運動引起耳蝸內(nèi)流體壓強的變化,從而引起行波沿基底膜的傳播。蝸內(nèi)流體壓強的變化,從而引起行波沿基底膜的傳播

11、。圖圖2.62.6是流體波的簡單表示。在耳蝸的底部基底膜是流體波的簡單表示。在耳蝸的底部基底膜的硬度很高,流體波傳播的很快。隨著波的傳播,的硬度很高,流體波傳播的很快。隨著波的傳播,膜的硬度變得越來越小,波的傳播也逐漸變緩。不膜的硬度變得越來越小,波的傳播也逐漸變緩。不同頻率的聲音產(chǎn)生不同的行波,而峰值出現(xiàn)在基底同頻率的聲音產(chǎn)生不同的行波,而峰值出現(xiàn)在基底膜的不同位置上。膜的不同位置上。 圖圖2.7 基底膜上六個不同點的頻率響應基底膜上六個不同點的頻率響應1 1 基底膜基底膜2 2 內(nèi)毛細胞內(nèi)毛細胞3 3 外毛細胞外毛細胞4 聽傳導通路聽傳導通路 2.3.3 語音信號聽覺模型語音信號聽覺模型

12、聽覺系統(tǒng)的研究主要集中在三個方面:聽覺系統(tǒng)的聽覺系統(tǒng)的研究主要集中在三個方面:聽覺系統(tǒng)的實驗研究、聽覺系統(tǒng)的建模和聽覺模型的應用。聽覺系統(tǒng)實驗研究、聽覺系統(tǒng)的建模和聽覺模型的應用。聽覺系統(tǒng)的實驗研究主要是指聽覺系統(tǒng)在醫(yī)學、生理學及心理學方的實驗研究主要是指聽覺系統(tǒng)在醫(yī)學、生理學及心理學方面的研究。由于耳蝸深植于顱骨中,尺寸極小(如蝸管的面的研究。由于耳蝸深植于顱骨中,尺寸極小(如蝸管的直徑只有直徑只有1mm),所以耳蝸的實驗研究是一項非常艱巨),所以耳蝸的實驗研究是一項非常艱巨和復雜的工作。和復雜的工作。 耳蝸建模主要集中在基底膜的振動上,然而,建耳蝸建模主要集中在基底膜的振動上,然而,建立基

13、底膜的振動模型是耳蝸建模的首要任務,它又被立基底膜的振動模型是耳蝸建模的首要任務,它又被稱為耳蝸的宏觀力學模型。稱為耳蝸的宏觀力學模型。 圖2.10 語音信號聽覺模型一般原理框圖 語音信號首先通過一串帶通濾波器語音信號首先通過一串帶通濾波器(BPF)陣列,陣列,其中心頻率跟隨著圖其中心頻率跟隨著圖2.7所示的基底膜頻率響應按照對數(shù)所示的基底膜頻率響應按照對數(shù)尺度分布。每一個帶通濾波器都被獨立的設定為有限沖激尺度分布。每一個帶通濾波器都被獨立的設定為有限沖激響應濾波器響應濾波器(FIR)或無限沖激響應濾波器或無限沖激響應濾波器(IIR),但是頻,但是頻率響應的波形并不是嚴格精確的。率響應的波形并

14、不是嚴格精確的。 被濾波的信號在通過內(nèi)毛細胞被濾波的信號在通過內(nèi)毛細胞/突觸模型之后,到突觸模型之后,到達聽傳導通路模型。雖然各種聽覺模型的帶通濾波達聽傳導通路模型。雖然各種聽覺模型的帶通濾波器的性能特征是基本相同的,但是在接下來幾級的器的性能特征是基本相同的,但是在接下來幾級的信號處理過程卻有很大差異。事實上,不同的聽覺信號處理過程卻有很大差異。事實上,不同的聽覺模型都各自擁有不同的模型都各自擁有不同的IHC模型,突觸模型和聽傳導模型,突觸模型和聽傳導通路模型。一些模型為每一個濾波后的信號都設有獨立通路模型。一些模型為每一個濾波后的信號都設有獨立的頻道,而另一些模型則認為在基底膜上相鄰位置處

15、濾的頻道,而另一些模型則認為在基底膜上相鄰位置處濾波得到的信號之間存在耦合性。波得到的信號之間存在耦合性。 根據(jù)人耳的聽覺特性得出的模型作為語音識別的特征根據(jù)人耳的聽覺特性得出的模型作為語音識別的特征提取部分,可獲得具有魯棒性的特征參數(shù),它們對真實提取部分,可獲得具有魯棒性的特征參數(shù),它們對真實世界中的噪音環(huán)境下的語音識別都表現(xiàn)出很好的性能。世界中的噪音環(huán)境下的語音識別都表現(xiàn)出很好的性能。2.4 語音的感知語音的感知2.4.1 幾個概念幾個概念 1. 人耳聽覺界限的頻率范圍大約為人耳聽覺界限的頻率范圍大約為20Hz-20kHz。2. 語音感知的強度范圍是語音感知的強度范圍是0130dB聲壓級。

16、聲壓級。3. 響度響度 這是頻率和強度級的函數(shù)。通常用響度這是頻率和強度級的函數(shù)。通常用響度( (單位為單位為宋宋) )和響度級和響度級( (單位為方單位為方) )來表示。此時響度級定為零來表示。此時響度級定為零方。測量表明聽閾值是隨頻率變化的。通常,人們把方。測量表明聽閾值是隨頻率變化的。通常,人們把1kHz純音聽閾值定為零方。純音聽閾值定為零方。4 4. 人耳剛剛可以聽到的聲音強度,稱為人耳剛剛可以聽到的聲音強度,稱為“聽聽閾閾”。 加大聲音的強度,使聽起來令耳朵感到加大聲音的強度,使聽起來令耳朵感到疼痛,這個閾值稱為疼痛,這個閾值稱為“痛閾痛閾”。5.音高音高(音調(diào)音調(diào)) 音高也叫基音。

17、音高也叫基音。 物理單位為物理單位為Hz,主觀感覺的音高單位是美,主觀感覺的音高單位是美(Mel)。當聲強級為當聲強級為40dB頻率為頻率為1kHz時,設時,設定的音高為定的音高為1000美。美。2.4.2 掩蔽效應掩蔽效應 掩蔽效應:掩蔽效應: 兩個響度不等的聲音作用于人耳時,則響度較高兩個響度不等的聲音作用于人耳時,則響度較高的頻率成分的存在會影響到對響度較低的頻率成分的的頻率成分的存在會影響到對響度較低的頻率成分的感受,使其變得不易察覺,即:感受,使其變得不易察覺,即:一個聲音的聽覺感受一個聲音的聽覺感受性受同時存在的另外一個聲音的影響,這個現(xiàn)象稱性受同時存在的另外一個聲音的影響,這個現(xiàn)

18、象稱為人耳的為人耳的“掩蔽效應掩蔽效應”。此時前者稱為被掩蔽音,后此時前者稱為被掩蔽音,后者稱為掩蔽音。在掩蔽情況下,被隱蔽音的聽閾會提者稱為掩蔽音。在掩蔽情況下,被隱蔽音的聽閾會提高,即加大被掩蔽音的強度才能聽到。此時聽閾稱為高,即加大被掩蔽音的強度才能聽到。此時聽閾稱為掩蔽聽閾。掩蔽聽閾。 低頻的純音可以有效地掩蔽高頻的純音。低頻的純音可以有效地掩蔽高頻的純音。 利用人耳的掩蔽效應,在進行語音壓縮時,讓量利用人耳的掩蔽效應,在進行語音壓縮時,讓量化噪音的頻譜跟隨語言信號頻譜包絡變化。則共振峰化噪音的頻譜跟隨語言信號頻譜包絡變化。則共振峰的頻率成分就會掩蔽掉量化噪聲。這個技術稱為噪聲的頻率成

19、分就會掩蔽掉量化噪聲。這個技術稱為噪聲整形或聽覺加權處理。整形或聽覺加權處理。 低音容易掩蔽高音,而高音掩蔽低音較難。低音容易掩蔽高音,而高音掩蔽低音較難。 基于此,可以將真實的聲音頻率映射到基于此,可以將真實的聲音頻率映射到“感知感知”頻率頻率尺度,即尺度,即Bark尺度對應的臨界帶寬。尺度對應的臨界帶寬。 2.4.3 臨界帶寬與頻率群臨界帶寬與頻率群 用一中心頻率為用一中心頻率為f,帶寬為,帶寬為f的白噪聲來掩蔽一頻的白噪聲來掩蔽一頻率為率為f的純音,先將這個白噪聲的強度調(diào)節(jié)到使被掩蔽純的純音,先將這個白噪聲的強度調(diào)節(jié)到使被掩蔽純音恰好聽不見為止。然后將音恰好聽不見為止。然后將f由大到小逐

20、漸變化,而保由大到小逐漸變化,而保持單位頻率的噪聲強度(即噪聲譜密度)不變,起初這持單位頻率的噪聲強度(即噪聲譜密度)不變,起初這個純音一直是聽不見的,但當個純音一直是聽不見的,但當f小到某個臨界值時,小到某個臨界值時,這個純音就突然可以聽見了。如果再進一步減小這個純音就突然可以聽見了。如果再進一步減小f,被掩蔽音被掩蔽音f就會越來越清晰。這里剛剛開始能聽到被掩就會越來越清晰。這里剛剛開始能聽到被掩蔽聲時的蔽聲時的f寬的頻帶,叫做頻率寬的頻帶,叫做頻率f處的臨界帶。處的臨界帶。 當掩蔽噪聲的帶寬窄于臨界帶的帶寬時,能掩當掩蔽噪聲的帶寬窄于臨界帶的帶寬時,能掩蔽住純音蔽住純音f的強度是隨噪聲的帶

21、寬的增加而增加的,的強度是隨噪聲的帶寬的增加而增加的,但當掩蔽噪聲的帶寬達到臨界帶后,繼續(xù)增加噪聲但當掩蔽噪聲的帶寬達到臨界帶后,繼續(xù)增加噪聲帶寬就不再引起掩蔽量的提高了。臨界帶寬是隨中帶寬就不再引起掩蔽量的提高了。臨界帶寬是隨中心頻率而變的,被掩蔽純音的頻率(即臨界帶的中心頻率而變的,被掩蔽純音的頻率(即臨界帶的中心頻率)越高,臨界帶寬也越寬。心頻率)越高,臨界帶寬也越寬。 臨界頻帶也可定義為:一個給定的正弦純音在基底臨界頻帶也可定義為:一個給定的正弦純音在基底膜上能夠產(chǎn)生諧振反應的那一部分。一個頻率群的劃分膜上能夠產(chǎn)生諧振反應的那一部分。一個頻率群的劃分相應于基底膜分成許多很小的部分,每一

22、部分對應一個相應于基底膜分成許多很小的部分,每一部分對應一個頻率群。頻率群。 一個臨界帶的單位用巴克(一個臨界帶的單位用巴克(Bark)表示。)表示。 2.5 語音信號模型語音信號模型有三部分作用施加在語音的聲波上:有三部分作用施加在語音的聲波上:聲門產(chǎn)生的激勵模型聲門產(chǎn)生的激勵模型G(z);聲道產(chǎn)生的調(diào)制函數(shù)聲道產(chǎn)生的調(diào)制函數(shù)V(z);嘴唇產(chǎn)生的輻射函數(shù)嘴唇產(chǎn)生的輻射函數(shù)R(z)。語音信號的傳遞函數(shù)由這三個函數(shù)級聯(lián)而成,語音信號的傳遞函數(shù)由這三個函數(shù)級聯(lián)而成,即:即:H(z)=G(z)V(z)R(z)2.5.1 激勵模型激勵模型 發(fā)濁音時,產(chǎn)生的脈沖類似于斜三角形的脈沖。發(fā)濁音時,產(chǎn)生的脈沖

23、類似于斜三角形的脈沖。激勵波是一個以基音周期為周期的斜三角脈沖串。激勵波是一個以基音周期為周期的斜三角脈沖串。 圖圖2.9 三角波及其頻譜圖三角波及其頻譜圖 單個三角波的數(shù)學表達式為單個三角波的數(shù)學表達式為 其中:其中:N1為斜三角波的上升時間為斜三角波的上升時間 N2為其下降時間為其下降時間 單個斜三角波的頻譜單個斜三角波的頻譜G(ej)表現(xiàn)出一個低通濾波表現(xiàn)出一個低通濾波器的特性。其器的特性。其z變換的全極點形式為:變換的全極點形式為: 作為激勵的斜三角波串可以用一串加了權的單位脈作為激勵的斜三角波串可以用一串加了權的單位脈沖序列去激勵單位斜三角波模型實現(xiàn)。這個單位脈沖串和沖序列去激勵單位

24、斜三角波模型實現(xiàn)。這個單位脈沖串和幅值因子可以表示成下面的幅值因子可以表示成下面的z變換形式變換形式 濁音激勵模型可表示為濁音激勵模型可表示為 清音可以模擬成隨機白噪聲。清音可以模擬成隨機白噪聲。2.5.2 聲道模型聲道模型- -(1 1)共振峰模型)共振峰模型 典型的聲道模型有兩種:無損聲管模型和共振峰模型。典型的聲道模型有兩種:無損聲管模型和共振峰模型。 (1 1)共振峰模型)共振峰模型 當聲波通過聲道時,受到聲腔共振的影響,在當聲波通過聲道時,受到聲腔共振的影響,在某些頻率附近形成諧振。反映在信號頻譜圖上,在某些頻率附近形成諧振。反映在信號頻譜圖上,在諧振頻率處其譜線包絡產(chǎn)生峰值,一般把

25、它叫作共諧振頻率處其譜線包絡產(chǎn)生峰值,一般把它叫作共振峰振峰。 實踐表明,用前三個共振峰代表一個元音足夠?qū)嵺`表明,用前三個共振峰代表一個元音足夠了。多個了。多個Vi疊加可以得到聲道的共振峰模型:疊加可以得到聲道的共振峰模型:一個二階諧振器的傳輸函數(shù)可以寫成一個二階諧振器的傳輸函數(shù)可以寫成 無損聲管模型:是假定聲道由多個等長的不同截面無損聲管模型:是假定聲道由多個等長的不同截面積的管子串聯(lián)而成的系統(tǒng),并假定管子中的流體及管壁沒積的管子串聯(lián)而成的系統(tǒng),并假定管子中的流體及管壁沒有熱傳導和粘滯的損耗。在短時間內(nèi),聲道可表為形狀穩(wěn)有熱傳導和粘滯的損耗。在短時間內(nèi),聲道可表為形狀穩(wěn)定的管道,并可以認為聲

26、波是沿管軸傳播的平面波。定的管道,并可以認為聲波是沿管軸傳播的平面波。 2.5.2 聲道模型聲道模型- -(2)無損聲管模型)無損聲管模型 對于對于N個無損聲管級聯(lián)的情況,可得到無損聲管的傳遞個無損聲管級聯(lián)的情況,可得到無損聲管的傳遞函數(shù)為:函數(shù)為: 從聲道模型輸出的是速度波從聲道模型輸出的是速度波ul (n),而語音信號,而語音信號是聲壓波是聲壓波Pl(n)。二者倒比稱為輻射阻抗。二者倒比稱為輻射阻抗Zl,它表征它表征口唇的輻射效應。如果認為口唇張開的面積遠遠小口唇的輻射效應。如果認為口唇張開的面積遠遠小于頭部的表面積,利用單板開槽輻射的處理方法,于頭部的表面積,利用單板開槽輻射的處理方法,

27、可以得到輻射阻抗,可以得到輻射阻抗,r近似為近似為1 2.5.2 聲道模型聲道模型- -(3)輻射模型)輻射模型 由輻射引起的能量損耗正比于輻射阻抗的實由輻射引起的能量損耗正比于輻射阻抗的實部部R(z),其頻響曲線表現(xiàn)出一階高通濾波器的特性。,其頻響曲線表現(xiàn)出一階高通濾波器的特性。在實際信號分析時,常用所謂預加重技術。這樣,模在實際信號分析時,常用所謂預加重技術。這樣,模型只剩下聲道部分,對參數(shù)分析就方便了。在語音合型只剩下聲道部分,對參數(shù)分析就方便了。在語音合成時再進行解加重處理。成時再進行解加重處理。2.6 語音信號數(shù)字模型語音信號數(shù)字模型2.6.1 數(shù)字模型數(shù)字模型 (1)組成:)組成:

28、 包括三部分:激勵模型、聲道模型和輻射模型。包括三部分:激勵模型、聲道模型和輻射模型。 激勵源分濁音和清音兩個分支,按照濁音激勵源分濁音和清音兩個分支,按照濁音/清音開關清音開關所處的位置來決定產(chǎn)生的語音是濁音還是清音。所處的位置來決定產(chǎn)生的語音是濁音還是清音。 (2)在濁音的情況下,激勵信號由一個周期脈沖發(fā))在濁音的情況下,激勵信號由一個周期脈沖發(fā)生器產(chǎn)生。所產(chǎn)生的序列是一個周期為生器產(chǎn)生。所產(chǎn)生的序列是一個周期為T的沖激序的沖激序列列,T的倒數(shù)即為基音頻率。為了使?jié)嵋舻募钚盘柧哂械牡箶?shù)即為基音頻率。為了使?jié)嵋舻募钚盘柧哂新曢T氣流脈沖的實際波形,還需要使上述的沖激序列聲門氣流脈沖的實際波

29、形,還需要使上述的沖激序列通過一個聲門脈沖模型濾波器。通過一個聲門脈沖模型濾波器。(3)在清音的情況下,激勵信號由一個隨機噪聲發(fā))在清音的情況下,激勵信號由一個隨機噪聲發(fā)生器產(chǎn)生。設其均值為生器產(chǎn)生。設其均值為0,方差為常數(shù),幅度具有,方差為常數(shù),幅度具有高斯概率分布。乘系數(shù)的作用是調(diào)節(jié)清音信號的幅高斯概率分布。乘系數(shù)的作用是調(diào)節(jié)清音信號的幅度。度。(4) 圖圖2.16中畫出了一段濁音語音產(chǎn)生過程中的有關波形。中畫出了一段濁音語音產(chǎn)生過程中的有關波形。(5)聲道模型)聲道模型V(Z)給出了離散時域的聲道傳輸函給出了離散時域的聲道傳輸函數(shù),把實際聲道作為一個變截面聲管加以研究,數(shù),把實際聲道作為一個變截面聲管加以研究,采用流體力學的方法可以導出,在大多數(shù)情況下采用流體力學的方法可以導出,在大多數(shù)情況下它是

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論