語音信號處理課件-語音合成_第1頁
語音信號處理課件-語音合成_第2頁
語音信號處理課件-語音合成_第3頁
語音信號處理課件-語音合成_第4頁
語音信號處理課件-語音合成_第5頁
已閱讀5頁,還剩26頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

SpeechsignalprocessingLecture6:語音合成1語音合成技術概述2共振峰合成技術3LPC參數合成技術4PSOLA合成5按規則合成6語音合成的未來發展方向Speechsignalprocessing1語音合成技術概述Speechsignalprocessing1語音合成技術概述語音合成定義為:通過機械的、電子的方法產生人造語音的技術。語音合成的三個層次:Intention-To-SpeechConcept-To-SpeechText-To-SpeechSpeechsignalprocessing1語音合成技術概述-TTS文本分析韻律生成語音生成Speechsignalprocessing1語音合成技術概述-合成過程查找拼寫錯誤,并將文本中出現的一些不規范或無法發音的字符過濾掉。分析文本中詞或短語的邊界,標注詞性、確定文字的讀音,同時分析文本中出現的數字、姓氏、特殊字符、專有詞語以及各種多音字的讀音方式。分析文本中每個句子的語法結構和語義結構,確定語義中心,句子的重音模式,語調,從而為韻律處理提供必要信息。對音系層的韻律事件預測:聲調、語調、輕重、節律等對聲學層的韻律參數預測Speechsignalprocessing1語音合成技術概述建立韻律模型的兩種方法基于模型的方法基于規則的方法Speechsignalprocessing1語音合成技術概述

語音生成方法主要目的:根據韻律建模的結果,從原始語音庫中取出相應的語音基元,利用特定的語音合成技術對語音基元進行韻律特性的調整和修改,最終合成符合要求的語音。主要方法:(1)共振峰合成(2)LPC(線性預測編碼)參數合成(3)PSOLA(基音同步疊加)合成Speechsignalprocessing2共振峰合成技術原理 音色各異的語音具有不同的共振峰模式,以每個共振峰頻率及其帶寬作為參數,可以構成共振峰濾波器。再用若干個這種濾波器的組合來模擬聲道的傳輸特性(頻率響應),對激勵源發出的信號進行調制,再經過輻射模型就可以得到合成語音。Speechsignalprocessing2共振峰合成技術模型 級聯型、并聯型、混合型。優點 對音高、音長、音強等目標值可以通過設置激勵和諧振器參數等來實現,調整起來較容易。缺點 由于對聲道的模擬不精確影響了合成的自然度;控制參數過多,導致實現困難。激勵源分為濁音和清音。Speechsignalprocessing2共振峰合成技術混合型共振峰模型Speechsignalprocessing3LPC參數合成技術原理一個語音的采樣能夠用過去若干個語音采樣的線性組合來逼近。形式利用預測系數ai直接構成的遞歸型合成濾波器;利用反射系數ki構成格型合成濾波器。Speechsignalprocessing3LPC參數合成技術

LPC合成模型中的所有控制參數都必須隨時間不斷地修正。

(1)對于清音語音段,可以簡單地針對每一幀數據改變一次參數。

(2)對于濁音語音段,根據控制參數改變時刻的選取不同,有基音同步合成和幀同步合成兩種方式。

(3)分析幀的長度固定,一般選擇大于兩個基音周期,因此為了得到每個基音周期起始處的控制參數,就必須進行內插。優點簡單、易于實現。缺點合成語音樣本需要很高的計算精度Speechsignalprocessing4PSOLA基礎-時間尺度的調整(TSM)

如何將一段聲音變慢或者變快?Speechsignalprocessing

變慢一倍后的語譜圖被拉長4PSOLA基礎-時間尺度的調整(TSM)Speechsignalprocessing

問題Problem:如何保證局部的時間結構,而使整體的時間長度發生變化?解決方法

Solution將小段反復重復4PSOLA基礎-時間尺度的調整(TSM)Speechsignalprocessing4PSOLA基礎-時間尺度的調整(TSM)Speechsignalprocessing

允許在疊加過程中有一定的誤差4PSOLA基礎-時間尺度的調整(TSM)Speechsignalprocessing

通過交叉相關方法確定4PSOLA基礎-時間尺度的調整(TSM)Speechsignalprocessing4PSOLA合成技術原理對原始波形進行分析,進行基音標注。(2)對這些短時信號做必要的修正,形成一系列短時合成信號。首先根據原始語音波形的基音曲線和超音段特征與目標基音曲線和超音段特征修正的要求,建立合成波形與原始波形之間基音周期的映射關系;再由此映射關系確定合成所需的短時合成信號系列。(3)將合成短時信號系列與目標基音周期同步排列并重疊相加得到合成波形。Speechsignalprocessing為原始語音段加基音標注是算法執行的基礎。

濁音有基音周期,能夠進行有效地標注。對于清音,為了保持算法的一致性,一般標注為一個適當的常數。需要按基音周期分別修改音長、基頻及合成信號的幅值。

4PSOLA合成技術Speechsignalprocessing4PSOLA合成技術對于音長的修改,就是找到分析信號的基音同步標注點與最后合成信號的基音同步標注點之間的對應關系,一般它們呈現一種線性關系,下圖給出了音長縮短時的基音標注情況。Speechsignalprocessing4PSOLA合成技術進行基頻和音長的調整Speechsignalprocessing4PSOLA合成技術Speechsignalprocessing4PSOLA合成技術Speechsignalprocessing4PSOLA合成技術Speechsignalprocessing4PSOLA合成技術

基于拼接合成算法中需要解決的問題聲學基元的選擇韻律修飾Speechsignalprocessing5按規則合成

選擇更小的合成基元,加入龐大的規則庫將其合成為詞語或句子的合成方式,更側重于各種合成規則的研究,因此稱其為按規則合成。對漢語,基元一般應選聲母和韻母。韻律規則也叫“超音段特征”,反映了語音在基頻、共振峰、能量以及譜分布特性上的差異。

主要包括聲調、語調、重音等。Speechsignalprocessing5按規則合成

(a)重音規則指說話或朗讀時讀的比較重的音節或詞語,要時間長一點、音程大一點。一般可以將漢語重音分為詞重音和句重音兩大類。(b)轉接與音渡轉接與音渡是音素序列轉變成語音流時的動態變化規律。漢語發音中存在兩種基本的過渡,即輔音與元音組合和元音與元音組合。前者稱之為“轉接”;后者稱之為“音渡”。Speechsignalprocessing5按規則合成

(c)聲調與變調在連續的語流中,由于相鄰音節之間的相互影響,各音節的基音頻率時變曲線與孤立發音時的音節相比會發生較大的變異。(d)音長問題音長也是語音的重要特征之一,對語音的可懂度、自然度都有一定的影響。漢語中音長主要體現在韻母的調型段長度上。Speechsignalprocessing6合成音質的評價主觀評價可懂度(清晰度)正確聽辨被傳送的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論