




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、word海 南 大 學畢 業 論 文設計題 目:基于MATLAB的語音倒譜分析學 號: 姓 名 年 級 學 院: 專 業: 指導教師: 完成日期: 2012年6月 .word摘 要語言是人類最重要的交流工具,它自然方便、準確高效。隨著社會的不斷開展,各種各樣的機器參與了人類的生產活動和社會活動,因此改善人與機器之間的關系,使人對機器的操縱更加便利就顯得越來越重要。隨著電子計算機和人工智能機器的廣泛應用,人們發現,人和機器之間最好的通信方式是語言通信,而語音是語言的聲學表現形式。要使機器聽的懂人話,就要對語音信號進行處理。隨著信息技術的不斷開展,尤其是網絡技術的日益普及和完善,語音信號處理技術正
2、發揮著越來越重要的作用。為了尋找具有良好性能的特征及提取重要參數以提高識別系統性能,各種科學的算法應運而生,倒譜法作為信號處理的重要的方法之一,能夠得到比擬好的識別性能。本文以MATLAB為平臺,通過編程實現對語音信號的倒譜分析。首先,本文簡要說明了倒譜與語音的相關理論原理,包括倒譜原理和語音的組成元素,為之后的進一步研究奠定理論根底。然后,對語音倒譜各個方面的應用進行了MATLAB編程,得到了語音基音檢測和共振峰檢測的實驗仿真結果。關鍵詞:語音信號;倒譜;MATLAB;基音檢測;共振峰檢測;AbstractLanguage is one of the most important commu
3、nication tools, it is convenient and efficient. With the continuous development of the society, a variety of machines are used in the humans production and social activities, thus improving the relationship between man and machine makes the machine more convenient what becomes more and more importan
4、t. With the wide application of electronic computers and artificial intelligence machine, it was discovered that language communication is the best means of communication between man and machine, while the voice is the acoustic manifestations of the language.To make the machine understands people, i
5、t is necessary to process the speech signal. With the continuous development of IT, especially the growing popularity of network technology and improvement of the voice signal processing technology is playing an increasingly important role, in order to find a good performance characteristics and ext
6、ract important parameters to improve the performance of the recognition system, a variety of scientific algorithms have emerged, the cepstrum, as the signal processing one of the important methods, can get better recognition performance.MATLAB as a platform, can achieve cepstrum analysis of the spee
7、ch signal by programming. First, the article briefly described the itheoretical principles of cepstrum and voice, including the the cepstrum principles and elements of voice,which laied the theoretical foundation for the further research . Then the speech cepstrum application in all aspects was prog
8、rammed in MATLAB, thus we got voice pitch detection , peak detection experiment simulation results by simulation.Keywords: speech signal; cepstrum; MATLAB; pitch detection; resonance peak detection;.word目 錄1緒論11.1目的及意義11.2 語音信號研究現狀11.3主要研究內容32倒譜的根本原理52.1復倒譜和倒譜的定義52.2復倒譜的計算方法62.3復倒譜與倒譜的關系93語音信號的組成分析1
9、13.1語音的兩個分量113.2語音類型134語音倒譜的應用及MATLAB仿真154.1倒譜的MATLAB實現154.2倒譜在同態信號處理系統的應用164.3倒譜在基音檢測方面的應用174.4倒譜在共振峰檢測方面的應用215總結25致 謝26參考文獻27附錄A28附錄B28附錄C30.word1緒論1.1目的及意義由于語言是人們在日常生活中的主要交流手段,因此語音信號處理在現代信息社會中占用重要地位。隨著語音信號處理技術在實際生活中的應用的不斷開展,語音信號處理技術已經越來越貼近人們的生活。目前,語音信號處理技術處于蓬勃開展的時期,不斷有新的產品被研制開發,市場需求逐漸增加,具有良好的應用前景
10、。語音信號處理雖然包括語音通信,語音合成,語音識別等內容,但是其前提和根底是對語音信號進行分析。在語音信號處理中可以常用倒譜域來提取語音的基頻和共振峰,用于語音識別。倒譜系數是一種表征語音特征非常有效的參數矢量, 它能將語音信號的聲門鼓勵信息及聲道響應信息別離開來,也就是說倒譜具有解卷的特性,因此倒譜是說話人識別和語音識別中最常用的特征參數之一。由于倒譜在語音信號處理中的重要地位,倒譜的應用也越來越廣泛。例如可應用于通信、建筑聲學、地震分析、地質勘探和語音處理等領域。尤其在語音處理方面,應用復倒譜算法可制成同態預測聲碼器系統,用于高度保密的通信。1.2 語音信號研究現狀聲學是物理學的一個分支學
11、科,而語言聲學又是聲學的一個分支學科。 它主要的研究方向是人的發聲器官機理,發聲器官的類比線路和數學模型,聽覺器官的特性(如聽閾、掩蔽、臨界帶寬、聽力損失等) ,聽覺器官的數學模型,語音信號的物理特性(如頻譜特性、聲調特性、相關特性、概率分布等) ,語音的清晰度和可懂度等。當今通信和播送的開展非常迅速,而語言通信和語言播送仍然是最重要的局部,語言聲學那么是這些技術科學的根底。語言聲學的開展和電子學、計算機科學有著非常密切的關系。 在它開展的過程中,有過幾次飛躍。第一次飛躍是1907年電子管的創造和1920年無線電播送的出現。 因為有了電子管放大器,很微弱的聲音也可以放大,而且可以定量測量。從而
12、使電聲學和語言聲學的一些研究成果,擴展到通信和播送部門。第二次飛躍應該是在20世紀70年代初,由于電子計算機和數字信號處理的開展,人們發現:聲音信號特別是語音信號,可以通過模數轉換器(A /D)采樣和量化,它們轉換為數字信號后,能夠送進計算機.這樣就可以用數字計算方法,對語音信號進行處理和加工.。例如頻譜分析可以用傅里葉變換或快速傅里葉變換( FFT)實現,數字濾波器可以用差分方程實現. 在這個根底上,逐漸形成了一門新學科語音信號處理。它的開展很快,在通信、自動控制等領域,解決了很多用傳統方法難以解決的問題。在信息科學中占有很重要的地位,其中語音識別的研究也開始了飛速的開展。語音識別的研究工作
13、可以追溯到20世紀50年代AT&T貝爾實驗室的Audry系統,它是第一個可以識別十個英文數字的語音識別系統。但真正取得實質性進展,并將其作為一個重要的課題開展研究那么是在60年代末70年代初。這首先是因為計算機技術的開展為語音識別的實現提供了硬件和軟件的可能,更重要的是語音信號線性預測編碼LPC技術和動態時間規整DTW技術的提出,有效的解決了語音信號的特征提取和不等長匹配問題。這一時期的語音識別主要基于模板匹配原理,研究的領域局限在特定人,小詞匯表的孤立詞識別,實現了基于線性預測倒譜和DTW技術的特定人孤立詞語音識別系統;同時提出了矢量量化VQ和隱馬爾可夫模型HMM理論。隨著應用領域的
14、擴大,小詞匯表、特定人、孤立詞等這些對語音識別的約束條件需要放寬,與此同時也帶來了許多新的問題:第一,詞匯表的擴大使得模板的選取和建立發生困難;第二,連續的語音中,各個音素、音節以及詞之間沒有明顯的邊界,各個發音單位存在受上下文強烈影響的協同發音Co-articulation現象;第三,非特定人識別時,不同的人說相同的話相應的聲學特征有很大的差異,即使相同的人在不同的時間、生理、心理狀態下,說同樣內容的話也會有很大的差異;第四,識別的語音中有背景噪聲或其他干擾。因此原有的模板匹配方法已不再適用。20世紀90年代前期,許多著名的大公司如IBM、蘋果、AT&T和NTT都對語音識別系統的實用
15、化研究投以巨資。語音識別技術有一個很好的評估機制,那就是識別的準確率,而這項指標在20世紀90年代中后期實驗室研究中得到了不斷的提高。比擬有代表性的系統有:IBM公司推出的ViaVoice和DragonSystem公司的NaturallySpeaking,Nuance公司的NuanceVoicePlatform語音平臺,Microsoft的Whisper,Sun的VoiceTone等。其中IBM公司于1997年開發出漢語ViaVoice語音識別系統,次年又開發出可以識別上海話、廣東話和四川話等地方口音的語音識別系統ViaVoice98。它帶有一個32000詞的根本詞匯表,可以擴展到65000詞
16、,還包括辦公常用詞條,具有“糾錯機制,其平均識別率可以到達95%。該系統對新聞語音識別具有較高的精度,是目前具有代表性的漢語連續語音。我國語音識別研究工作起步于五十年代,但近年來開展很快。研究水平也從實驗室逐步走向實用。從1987年開始執行國家863方案后,國家863只能計算機專家組為語音識別技術研究專門立項,每兩年滾動一次。我國語音識別技術的研究水平已經根本上與國外同步,在漢語語音識別技術上還有自己的特點與優勢,并到達國際先進水平。中科院自動化所、聲學所、清華大學、北京大學、哈爾濱工業大學、上海交通大學、中國科技大學、北京郵電大學、華中科技大學等科研機構都有實驗室進行過語音識別方面的研究,其
17、中具有代表性的研究單位為清華大學電子工程系與中科院自動化研究所模式識別國家重點實驗室。清華大學電子工程系語音技術與專用芯片設計課題組,研發的非特定人漢語數碼串連續語音識別系統的識別精度,到達94.8%不定長數字串和96.8%定長數字串。在有5%拒識率情況下,系統識別率可以到達96.9%不定長數字串和98.7%定長數字串,這是目前國際最好的識別結果之一,其性能已經接近實用水平。研發的五千詞郵包對非特定人連續語音識別系統的識別率到達98.73%;并且可以識別普通話與四川話兩種語言,到達實用要求。中科院自動化所及其所屬模式科技公司2002年發布了他們共同推出的面向不同計算平臺和應用的“天語中文語音系
18、列產品PattekASR,結束了中文語音識別產品自1998年以來一直由國外公司壟斷的歷史。1.3主要研究內容本文研究的是語音信號的倒譜分析,首先第一章的緒論局部,介紹了本文的研究目的與意義、語音信號的研究現狀和本文的研究內容。第二章介紹了倒譜的理論知識。詳細表達了倒譜的定義以及計算方法,將倒譜分為實倒譜和復倒譜,并區分實倒譜與復倒譜之間的關系,由此奠定了倒譜分析研究的根底。接著第三章介紹語音的組成,分別利用倒譜的定義求解了聲門鼓勵信號與聲道沖激響應序列這兩個語音卷積分量的復倒譜,并得出相應的結論,接著對語音的發音類型作了理論闡述。最后第四章具體研究了倒譜在語音信號處理中的簡單應用,主要是語音信
19、號識別的參數提取。首先通過輸入一段語音,并將其導入到MATLAB程序中進行語音的處理,完成語音在MATLAB中的倒譜實現,接著介紹倒譜在同態信號處理系統中的作用及同態信號處理系統的工作原理,然后是語音信號的主要應用,也是語音倒譜分析的重點內容,包括基音檢測和共振峰檢測兩個方面,作為語音信號的重要參數,分別進行了詳細的設計,為了清晰的描述程序的編寫過程,對設計思路方法都進行了完備的闡述,并依據設計的算法畫出了邏輯流程圖,從而在MATLAB中完成程序的編寫,最后通過對仿真結果進行了理論的分析,得出了語音的參數量值,完成了對語音信號倒譜分析的內容。2倒譜的根本原理倒譜(CEP)參數是重要的語音特征參
20、數,它是對語音進行同態處理的產物。在提取由于載波傳遞的信號特性時,用Time-Cepstrum 分析會非常有效,能把相關的特性給提取出來。Cepstrum 在語音識別特征參數提取中用到很多,這是因為語音本質的東西往往是聲帶的振動,然后經過聲道和口腔的調制才產生我們可以聽到或拾取的聲音。 通過Cepstrum 分析語音就能將這一本質性的特征參數提取出來。而要熟練運用倒譜法,還是要從根本理論入手。2.1復倒譜和倒譜的定義復倒譜的概念不是唯一的,一般有三種定義。定義如下:其中假設信號為x(n)復倒譜的Z變換定義復倒譜的傅里葉變換定義復倒譜的離散傅立葉變換定義 復倒譜的定義可以用圖2.1表示
21、ZlnZ-1FTlnIFTDFTlnIDFTx(n)x(n)x(n)圖2.1三種復倒譜定義的框圖表示有了復倒譜的定義后,倒譜的概念就不會復雜了。現在我們以復倒譜傅里葉變換定義為例來定義倒譜,將 取對數有為復數,那么只考慮其實部。令 FTln|.| IFTx(n)c(n)圖2.2倒譜的實現框圖x(n)的對數幅度譜的傅立葉逆變換,即圖2.2中的c(n) 稱為 “倒頻譜或“倒譜c(n)就是要求取的語音信號倒譜系數。2.2復倒譜的計算方法在復倒譜分析中,Z變換后是復數,取對數時是復對數運算,此時存在相位多值性問題相位卷繞。取信號為例進行說明求傅里葉變換求復對數由以上倒譜計算的流程可以得到其倒譜的幅度:
22、相位:由上式虛部可知相位有多值性相位可以寫成:其中為整數,所以相位多值,這種現象被稱為相位卷繞。防止相位卷繞的方法主要有:微分法、最小相位信號法。(1) 微分法由傅里葉變換的微分特性改寫:DFT乘nDFT÷IDFT除nx(n)nx(n)n圖2.3利用傅立葉變換的微分特性求復倒譜的框圖防止了求復對數的問題,但其缺點是會產生嚴重的頻譜混疊。原因: 頻譜中的高頻分量比有所增加,所以仍使用原來的取樣率將引起混疊;混疊后求出的 就不是的復倒譜了。(2) 最小相位信號法1這是由倒譜c(n)求復倒譜 的方法。2最小相位信號法是由最小相位序列的復倒譜性質和Hilbert變換的性質推出來的。3 適用條
23、件:最小相位信號序列4 最小相位信號序列:信號的零極點全部在z平面單位圓內。其復倒譜序列是因果序列。進一步引入輔助因子那么:圖2.4因果序列的分解與恢復結論:1. 一個因果序列可由其偶對稱分量來恢復;2.由倒譜的定義可知, 的偶對稱分量就是 DFT復對數ln(·)IDFTx(n)實部虛部圖2.5最小相位法求復倒譜2.3復倒譜與倒譜的關系x(n)x(n)FTln|.|IFT FT ln IFTc(n)x(n)圖2.6復倒譜與倒譜關系框圖1“倒頻譜或稱“倒頻的量綱是時間,記作“quefrency。由“frequency轉變來的新詞2復倒譜涉及的是復對數運算,而倒譜是實數的對數運算。3倒頻
24、譜不含信號的相位信息。因為人的聽覺對語音的感覺特征主要包含在幅度信息中,而相位信息不起作用。4倒譜經過正逆變換后,一般不能復原成自身,計算倒譜的過程中,喪失了相位信息。5一個實數序列x(n)的復倒譜,可以由其求出倒譜c(n)。任何一個序列可寫成偶對稱序列和奇對稱序列之和。3語音信號的組成分析語音是可以看作由兩個卷積分量組成,即聲門鼓勵信號和聲道沖激響應序列。不同的聲門鼓勵模型可產生不同的典型語音,如濁音、清音。語音模型是由聲門鼓勵模型和聲道模型卷積而成的,聲道模型在頻域表征語音頻譜的包絡結構,共振峰結構包含在聲道模型中。經過復倒譜分析,原本呈現卷積關系的聲門鼓勵模型和聲道模型在倒頻域呈加性關系
25、。3.1語音的兩個分量語音可以看成是由聲門鼓勵信號和聲道沖激響應序列卷積而成的如圖3.1,所以要想對語音信號進行處理,首先要了解語音分量的倒譜。聲道沖激響應序列聲門鼓勵信號語音信號圖3.1語音信號產生模擬框圖(1)聲門鼓勵信號發清音時,聲門鼓勵是能量較小、頻譜均勻分布的白噪聲。發濁音時,聲門鼓勵是以基音為周期的沖激序列。主要考察濁音時的聲門鼓勵信號的復倒譜,濁音x(n)的數學表示式其中是幅度因子,為用樣點數表示的基音周期下面求濁音聲門鼓勵的復倒譜步驟: 1. 對x(n)進行Z變換2. 對上式取對數并用泰勒公式展開3.對上式進行逆Z變換改寫為:結論: 1.一個有限長的周期沖激序列。其倒譜也是一個
26、周期沖激序列,且周期不變,只是變為無限長序列。 2.其振幅隨k的增大而減小,衰減速度比原序列要快。 3.利用上述性質,可以用“高時窗從語音信號的頻譜中提取濁音鼓勵信號的倒譜,從而提取出基音。(2)聲道沖激響應序列假設用極零模型來描述聲道沖激序列 ,那么求對數:都小于1用泰勒公式展開然后求逆Z變換結論: 是雙邊序列,存在于 的范圍內。 由于 均小于1,所以為衰減序列,即隨 |n| 的增大而減小。 短時窗提取聲道沖激響應序列的復倒譜是很有效的。 最小相位序列的復倒譜是因果序列。 最大相位序列的復倒譜是反因果序列。3.2語音類型圖3.2語音生成機理模型由圖3.2,空氣由肺部排入喉部,經過聲帶進入聲道
27、,最后由嘴輻射出聲波,這就形成了語音。在聲門聲帶以左,稱為“聲門子系統,它負責產生鼓勵振動;右邊是“聲道系統和“輻射系統。當發不同性質的語音時,鼓勵和聲道的情況是不同的,它們對應的模型也是不同的。1濁音空氣流經過聲帶時,如果聲帶是繃緊的,那么聲帶將產生張弛振動,即聲帶將周期性地啟開和閉合。聲帶啟開時,空氣流從聲門噴射出來,形成一個脈沖,聲帶閉合時相應于脈沖序列的間隙期。因此,這種情況下在聲門處產生出一個準周期脈沖狀的空氣流。該空氣流經過聲道后最終從嘴唇輻射出聲波,這便是濁音語音。這個準周期脈沖的周期即為基音周期。聲門處產生的準周期脈沖其周期、寬度以及形狀與聲帶的長度、厚度及張力等參數有關。聲帶
28、越短、厚度越薄、張力越大,那么聽起來感覺的音調就越高,也就是濁音的基音頻率越高。因此,基音頻率是由聲帶張開閉合的周期所決定。男性的基音頻率一般為50250Hz,女性基音頻率為100500Hz。2清音空氣流經過聲帶時,如果聲帶是完全舒展開來的,那么肺部發出的空氣流將不受影響地通過聲門。空氣流通過聲門后,會遇到兩種情況。一種情況是,如果聲道的某個部位發生收縮形成了一個狹窄的通道,當空氣流到達此處時被迫以高速沖過收縮區,并在附近產生出空氣湍流,這種湍流空氣經過聲道后便形成所謂摩擦音或清音。令一種情況是,如果聲道的某個部位完全閉合在一起,當空氣流到達時便在此處建立起空氣壓力,閉合點突然開啟便會讓氣壓快
29、速釋放,經過聲道后便形成所謂爆破音。這兩種情況下發出的是清音。4語音倒譜的應用及MATLAB仿真表征一個人聲音個性的參數主要有反映聲道特性的共振峰頻率和反映聲門特性的基音參數。為了能夠提取出這些參數,就要借助一些工具,本節通過MATLAB完成倒譜在語音處理的各方面應用。4.1倒譜的MATLAB實現本實驗所用的語音樣本是Cooledit在普通室內環境下錄制的一段語音,采樣頻率為8kHz,單聲道。MATLAB仿真結果如下:程序見附錄A圖4.1倒譜程序仿真結果圖4.1是取一段語音的倒譜圖,第一幅是這段語音的時域波形圖,共取400點語音,在倒譜圖上會看到許多峰值,這些峰值都與基因周期有關,分別是一次諧
30、振,二次諧振4.2倒譜在同態信號處理系統的應用同態信號處理也稱為同態濾波,實現將卷積關系和乘積關系變換為求和關系的別離處理。×,* > ,將非線性信號處理變為線性信號處理的過程。線性系統特征系統D*逆特征系統D*-1y(n) *+x(n) *圖4.2常見的同態信號處理系統按照被處理的信號來分類,大體上可以分為乘積同態信號處理和卷積同態信號處理由于語音信號可以視為聲門鼓勵信號和聲道響應信號的卷積結果。我們僅討論卷積同態信號處理系統的問題。1特征系統D* 完成將卷積信號轉化為加性信號的運算。2第二個子系統對加性信號進行所需要的線性處理滿足線性疊加原理等3第三個子系統是逆特征系統D*
31、-1,使其恢復為卷積性信號。4特征系統D*和逆特征系統D*-1的區別a.第一步和第三步的運算相同。b.第二步不同,前者是對數運算,后者是指數運算。框圖如圖4.3 Z exp Z-1 Z ln Z-1圖4.3特征系統與逆特征系統的框圖表示4.3倒譜在基音檢測方面的應用基音是語音信號的一個重要參數,在語音產生的數字模型中它也是鼓勵源的一個重要參數,準確地檢測語音信號的基音周期對于高質量的語音分析與合成、語音壓縮編碼、語音識別和說話人確認等具有重要的意義。 1基音檢測的概念基音是指發濁音時聲帶振動所引起的周期性,而聲帶振動頻率的倒數就是基音周期。基音周期具有時變性和準周期性,它的大小與個人聲帶的長短
32、、厚薄、韌性和發音習慣有關,還與發音者的性別、年齡、發音時的力度及情感有關,是語音信號處理中的重要參數之一,它描述了語音鼓勵源的一個重要特征。基音周期的估計稱為基音檢測(Pitch Detection),基音檢測的最終目標是找出和聲帶振動頻率完全一致的基音周期變化軌跡曲線,如不可能那么找出盡量相吻合的軌跡曲線。然而由于人的聲道的易變性及其聲道特征的因人而異,而基音周期的范圍又很寬,且同一個人在不同情態下發音的基音周期也不同,加之基音周期還受到單詞發音音調的影響,故實際中的基音周期的精確檢測是一件比擬困難的事情。然而,盡管語音信號的基音檢測有許多困難但由于它在語音信號處理中的重要作用,促使廣闊學
33、者爭相涉足。2倒譜法求基音周期語音的倒譜是將語音的短時譜取對數后再進行IDFT得到的,所以濁音信號的周期性鼓勵反映在倒譜上式是同樣周期的沖激。借此,可從倒譜波形中估計出基音周期。一般把倒譜波形中第二個鼓勵,認為是對應鼓勵源的基頻。下面給出一種倒譜法求基音周期的框圖及流程圖。先計算倒譜,然后在預期的基音周期附近尋找峰值。如果倒譜的峰值超出了預先規定的門限,那么輸入語音段定為濁音,而峰的位置就是基音周期的良好估計。如果沒有超出門限的峰值,那么輸入語音段定為清音。如果計算的是一個時變的倒譜,那么可估計出鼓勵源模型及基音周期隨時間的變化。一般每隔1020ms計算一次倒譜,這是因為在一般語音中鼓勵參數是
34、緩慢變化的。基音檢測的實現框圖和流程圖如圖4.4和4.5所示。DFTS(k)ln|S(k)|IDFT峰 值檢 測基 音檢 測w(n)s(n)圖4.4倒譜法求基音周期的實現框圖 讀入語音數據到文件尾嗎?結束對該幀數據加窗計算基音周期pitch基音周期pitch=0找出該搜索范圍內倒譜的最大值max設置門限為0.08求該幀數據的倒譜設置基音搜索范圍取出一幀語音數據max>0.08 Y N N Y圖4.5基音檢測的流程圖3基音周期的清濁音的MATLAB仿真程序見附件B(1) 濁音:取startIndex=round4500,其運行結果如圖4.6所示圖4.6倒譜法求濁音的基音周期圖4.6分別為語
35、音的語音波形時域圖,截取一幀語音的波形圖和一幀語音的倒譜圖。語音波形圖為輸入語音之后的采樣波形,從這段語音中取出一幀的波形,在語音波形中為紅色線之間的局部,打印后線變為黑色,共計400點語音,所取的一幀語音為濁音,由第二幅圖看出濁音呈現明顯的周期性,而這個周期就是所要求的基音周期,一般把倒譜波形中第二個沖激,認為即是對應鼓勵源的基頻。在倒譜圖上表現為最大峰值與次峰值之間的間隔,將其化為頻率之后,估算出基音周期pitch= 186.0Hz,從圖中可以看出基音周期樣點數Np表示約為43,采樣頻率fs,故pitch=fs/Np=8000/43=186.0Hz.2清音:取startIndex=roun
36、d45000。其運行結果如圖圖4.7清音的倒譜圖4.6與圖4.7的不同點在于選取的聲音元素不同,圖4.7所取的一幀語音為清音,清音的幅度較小,且通過其時域圖可知清音不具有明顯的周期性,通過計算估算出它的基因周期pitch=0。4.4倒譜在共振峰檢測方面的應用語音信號處理中,共振峰頻率是一個特別重要的參數。它是表征發音時聲道特性的關鍵參數,也是區別不同韻母的重要依據。尋求一種實時實現的共振峰頻率檢測算法,在語音合成、語音識別、說話人識別等領域中有重要的應用價值。共振峰信息包括在語音頻譜包絡中。因此,共振峰頻率檢測的關鍵在于估計自然語音頻譜包絡,并認為譜包絡最大值對應的頻率就是共振峰頻率,最大值就
37、是共振峰。所以共振峰已經廣泛地用作語音識別的主要特征和語音編碼傳輸的根本信息。如果直接在語音頻譜提取共振峰頻率,誤差會很大。倒譜分析技術可以較好地別離出語音信號頻譜包絡結構。1共振峰的概念共振峰是指在聲音的頻譜中能量相對集中的一些區域,共振峰不但是音質的決定因素,而且反映了聲道共振腔的物理特征。聲音在經過共振腔時,受到腔體的濾波作用,使得頻域中不同頻率的能量重新分配,一局部因為共振腔的共振作用得到強化,另一局部那么受到衰減,得到強化的那些頻率在時頻分析的語圖上表現為濃重的黑色條紋。由于能量分布不均勻,強的局部猶如山峰一般,故而稱之為共振峰。2基于倒譜的共振峰的算法倒譜將基音諧波和聲道的頻譜包絡
38、別離開來。倒譜的低時局部可以分析聲道、聲門和輻射信息,而高頻局部可用來分析鼓勵源信息。對倒譜進行低時窗選,通過語音倒譜分析系統的最后一級,進行DFT后的輸出即為平滑后的對數模函數,這個平滑的對數譜顯示了特定輸入語音段的諧振結構,即譜的峰值根本上對應于共振峰頻率,對平滑過的對數譜中的峰值進行定位,即可估計共振峰。原理框圖和流程圖如圖4.8和圖4.9所示。分幀加窗|FFT|logIFFT加窗平滑處理|FFT|log共振峰圖4.8共振峰檢測框圖計算濁音基音周期NN點取倒譜的前NN點加NN點漢明窗計算頻譜formant1formant1:2=formant1(1:2)t<=2Formant=fo
39、rmant2平滑處理Formant(t)=formant2(t-1)*0.25+formant2(t)*0.5+formant2(t+1)*0.25繪 圖YN圖4.9共振峰檢測流程圖3共振峰檢測的MATLAB仿真程序見附錄C使用倒譜法估計共振峰頻率中要注意, 并不是所有的譜峰都是共振峰, 而且當兩個共振峰很靠近時, 會發生譜重疊, 很難計算共振峰的帶寬。圖為仿真的結果,先求語音的倒譜,然后求出倒譜的頻譜,做出來頻譜圖如圖4.2.4第二幅,最后對頻譜取對數并進行平滑處理,所得的圖像峰值就是對應的共振峰。清音沒有共振峰,取startIndex=round4500也就是濁音的共振峰檢測,其運行結果如
40、圖4.2.4.1所示,其中平滑對數幅度譜的峰值所對應的頻率就是共振峰頻率。圖4.10濁音共振峰檢測圖4.10是語音的倒譜,倒譜的頻譜以及平滑對數幅度譜的仿真圖,第二幅圖可以看到倒譜的頻率分布相比照擬平穩,所以對第二個樣點之后的語音進行平滑處理之后,所得的共振峰也不很明顯5總結通過幾個月的不懈努力,完成了該課題的設計,實現了基于MATLAB的語音倒譜分析,對基于MATLAB軟件進行信號的處理有了更深刻的認識。當然,限于作者水平,該系統難免有疏漏和需改善之處,比方,理想情況下,語音信號中濁音的倒譜會出現對應于基音周期的尖峰。然而,在實際語音信號的倒譜域中基音周期還會因為各種因素的影響而使提取出現困
41、難: 聲門鼓勵信號并不是一個完全周期的序列,在語音的頭、尾部并不具有聲帶振動那樣的周期性,有些清音和濁音的過渡幀是很難準確地判斷是周期性還是非周期性的。在許多情況下,清音語音和低電平濁音語音段之間的過渡段是非常細微的,確認它是極其困難的。 從語音信號中去除聲道影響,直接取出僅和聲帶振動有關的鼓勵信號的信息并不容易,例如聲道的共振峰有時會嚴重影響鼓勵信號的諧波結構。這種影響在發音器官快速動作而共振峰也快速改變時,對基音檢測是最具危害性的。同時共振峰檢測也會出現不準確性: 并不是所有的譜峰都為共振峰; 帶寬的計算。當兩個共振峰很靠近時,發生譜重疊,很難從頻譜曲線計算共振峰的帶寬。而且峰值檢測器認為
42、此處只存在一個共振峰。 語音參數的提取是語音識別的根底,所以提取參數的好壞直接影響著語音識別系統的性能,倒譜技術在語音識別中所占的比重也越來越重要,通過對這個課題的把握,根本上了解了語音的結構,和倒譜處理在語音信號的作用。致 謝 在本文的撰寫過程中xxx老師作為我的指導老師,她治學嚴謹,學識淵博,視野廣闊,為我營造了一種良好的學術氣氛。置身其間,耳濡目染,潛移默化,使我不僅接受了全新的思想觀念,樹立了明確的學術目標,領會了根本的思考方式,掌握了通用的研究方法,而且還明白了許多待人接物與為人處世的道理。其嚴以律己、寬以待人的崇高風范,樸實無華、平易近人的人格魅力
43、,與無微不至、感人至深的人文關心,令人如沐春風,倍感溫馨。正是由于她在百忙之中屢次審閱全文,對細節進行修改,并為本文的撰寫提供了許多中肯而且珍貴的意見,本文才得以成型。同組的同學互相催促,探究設計中遇到的課題,是整個設計中最活潑的組成元素,在同學的討論中我學到了許多思考的角度,真心謝謝她們。 在此特向x老師致以衷心的謝意!向她無可挑剔的敬業精神、嚴謹認真的治學態度、深厚的專業修養和平易近人的待人方式表示深深的敬意!參考文獻1張雪英 數字語音處理及MATLAB仿真 北京:電子工業出版社.20222 胡航 語音信號處理 哈爾濱 : 哈爾濱工業大學出版杜.20003 趙力 語
44、音信號處理 北京: 機械工業出版社.20054 易克初,田斌,付強 語音信號處理 北京:國防工業出版社.20015 占君,張倩,滿謙 MATLAB函數查詢手冊 北京:機械工業出版社.20226 趙毅 ,尹雪飛,陳克安 一種新的基于倒譜的共振峰頻率檢測算法 應用聲學第29卷第6期2022年11月7張琨,高思超,畢靖 MATLAB 2022從入門到精通 北京:電子工業出版社.20228高西全 丁玉美 語音信號處理第三版西安:西安電子科技大學出版社.2022附錄Aclear all;s,fs,nbit=wavread('C:Documents and SettingsAdministrato
45、r桌面woo.wav');b=s'x=b(5000:5399);N=length(x);S=fft(x);Sa=log(abs(S);sa=ifft(Sa);ylen=length(sa);for i=1:ylen/2 sal(i)=sa(ylen/2+1-i);endfor i=(ylen/2+1):ylen sal(i)=sa(i+1-ylen/2)end%繪圖figure(1);subplot(2,1,1);plot(x);axis(0,400,-0.5,0.5)title('截取的語音段');xlabel('樣點數');ylabel(
46、39;幅度');subplot(2,1,2);time2=-199:1:-1,0:1:200;plot(time2,sal);axis(-200,200,-0.5,0.5)title('截取語音的倒譜');xlabel('樣點數');ylabel('幅度');附錄Bclear all;y,fs,nbits=wavread('C:Documents and SettingsAdministrator桌面woo3.wav');time1=1:length(y);frameSize=floor(50*fs/1000);%幀長st
47、artIndex=round(4500);%起始序號endIndex=startIndex+frameSize-1;%結束序號frame=y(startIndex:endIndex);%取出該幀frameSize=length(frame);frame2=frame.*hamming(length(frame);%加漢明窗rwy=rceps(frame2);%求倒譜ylen=length(rwy);cepstrum=rwy(1:ylen/2);for i=1:ylen/2; cepstrum1(i)=rwy(ylen/2+1-i);endfor i=(ylen/2+1):ylen cepstr
48、um1(i)=rwy(i+1-ylen/2);end%基音檢測LF=floor(fs/500);%基音周期的范圍是70500HzHF=floor(fs/70);cn=cepstrum(LF:HF);mx_cep ind=max(cn);if mx_cep>0.08&ind>LF a=fs/(LF+ind);else a=0;endpitch=a%畫圖figure(1);subplot(3,1,1);plot(time1,y);title('語音波形');axis tightylim=get(gca,'ylim');line(time1(startIndex),time1(startIndex),ylim,'color','r');line(time1(endIndex),time1(endInd
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 健康險市場的競爭策略研究-全面剖析
- 無人駕駛車路協同-全面剖析
- 特定食物成分與過敏反應關聯-全面剖析
- 手足心熱炎癥反應探究-全面剖析
- 卵白蛋白結構解析-全面剖析
- 100以內三數加減法混合運算同步作業試題大全附答案
- 鄉村草編籃子行業跨境出海戰略研究報告
- 藝術教師培訓企業制定與實施新質生產力戰略研究報告
- 大數據金融AI應用行業跨境出海戰略研究報告
- 社會責任投資基金企業制定與實施新質生產力戰略研究報告
- 基坑工程土方開挖支護與降水監理實施細則
- 江蘇徐州市深地科學與工程云龍湖實驗室社會招考聘用9人模擬試卷【附答案解析】
- 土方回填施工記錄表
- 植物根莖葉課件
- 反生產行為講稿
- 施工現場消防安全技術交底
- 冀教版二年級語文下冊看圖寫話專項加深練習題含答案
- 焊接工藝評定及焊接工藝技術評定管理標準
- 洗衣房各崗位工作流程
- 基于SWOT分析的義烏市現代物流業發展研究
- 基于自適應濾波對音頻信號的處理詳解
評論
0/150
提交評論