




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
主講:張群慧語音處理技術SpeechProcessingTechnology01模塊1語音數據處理--數據清洗--任務目標掌握語音數據處理概念語音數據的讀取和可視化寫一個語音信號語音數據信號加窗語音數據信號分幀語音信號的短時時域與頻域處理任務內容語音數據預處理語音數據處理的整個過程可以分為兩個部分:
高質量低速率的語音編碼技術是其中最主要的要求,它將模擬語音信號變成數字信號以便在信道中傳輸。除了通信帶寬的要求外,嵌入式系統存儲容量的限制也要求對語音進行壓縮,以滿足巨量數據情況下進行實時或準實時微處理器處理的目的。A/D轉換
把原始聲音的模擬輸入轉化為數字化信息;D/A轉換
把數字信息轉化為模擬數據。微處理器處理的目的。語音數據預處理任務內容語音文件的讀取與可視化語音信號處理的研究起源于對發音器官的模擬。1939年美國H.杜德萊(H.Dudley)展出了一個簡單的發音過程模擬系統,以后發展成為聲道的數字模型。利用該模型可以對語音信號進行各種頻譜及參數的分析,進行通信編碼或數據壓縮的研究,同時也可根據分析獲得的頻譜特征或參數變化規律,合成語音信號,實現機器的語音合成。語音文件的讀取與可視化任務內容利用語音分析技術,還可以實現對語音的自動識別,發音人的自動辨識。
如果與人工智能技術結合,還可以實現各種語句的自動識別以至語言的自動理解,從而實現人機語音交互應答系統,真正賦予計算機以聽覺的功能。語音文件的讀取與可視化(續)任務內容語音信號處理語音信號的產生和感知語音信號是一個非平穩的時變信號,但語音信號是由聲門的激勵脈沖通過聲道形成的,而聲道(人的口腔、鼻腔)的肌肉運動是緩慢的,所以“短時間”(10~30ms)內可以認為語音信號是平穩時不變的。由此構成了語音信號的“短時分析技術”。在短時分析中,將語音信號分為一段一段的語音幀,每一幀一般取10~30ms,我們的研究就建立在每一幀的語音特征分析上。任務內容語音信號處理提取的不同的語音特征參數對應著不同的語音信號分析方法:由于語音信號最重要的感知特性反映在功率譜上,而相位變化只起到很小的作用,所有語音頻域分析更加重要。時域分析頻域分析倒譜域分析...
在對語音信號處理的過程中,語音信號的質量不僅取決于處理方法,同時取決于所提取的能夠表示該語音的特征參數是否合適。有了特征參數才可能利用這些參數進行有效的處理。任務內容信號加窗通常對信號截斷、分幀需要加窗,因為截斷都有頻域能量泄露,而窗函數可以減少截斷帶來的影響。信號加窗任務內容信號分幀在分幀中,相鄰兩幀之間會有一部分重疊。信號分幀幀長(wlen)=重疊(overlap)+幀移(inc)如果相鄰兩幀之間不重疊,那么由于窗函數的形狀,截取到的語音幀邊緣會出現損失,所以要設置重疊部分。inc為幀移,表示后一幀第前一幀的偏移量,fs表示采樣率,fn表示一段語音信號的分幀數。任務內容信號分幀信號分幀的理論依據,其中x是語音信號,w是窗函數:加窗截斷類似采樣,為了保證相鄰幀不至于差別過大,通常幀與幀之間有幀移,其實就是插值平滑的作用。任務內容語音數據的短時時域處理與頻域處理短時能量和短時平均幅度短時能量和短時平均幅度的主要用途:
區分聲母和韻母的分界和無話段和有話段的分界
區分濁音和清音段,因為濁音的短時能量E(i)比清音大很多;任務內容語音數據的短時時域處理與頻域處理發濁音時由于聲門波引起譜的高頻跌落,所以語音信號能量約集中在3kHz以下,發清音時多數能量集中在較高的頻率上,因為高頻意味著高的短時平均過零率,低頻意味著低的短時平均過零率,所以濁音時具有較低的過零率,而清音時具有較高的過零率。對于連續語音信號,過零率意味著時域波形通過時間軸,對于離散信號,如果相鄰的取樣值改變符號,則稱為過零。短時平均過零率可以用來初步判斷清音和濁音可以用于判斷寂靜無話段與有話段的起點和終止位置。在背景噪聲較小的時候,用平均能量識別較為有效,在背景噪聲較大的時候,用短時平均過零率識別較為有效。短時自相關函數主要應用于端點檢測和基音的提取,在韻母基因頻率整數倍處將出現峰值特性,通常根據除R(0)外的第一峰值來估計基音,而在聲母的短時自相關函數中看不到明顯的峰值。短時自相關函數任務內容短時自相關函數短時平均幅度差函數用于檢測基音周期,而且在計算上比短時自相關函數更加簡單。語音信號的短時頻域處理任務內容短時自相關函數在語音信號處理中,在語音信號處理中,信號在頻域或其他變換域上的分析處理占重要的位置,在頻域上研究語音可以使信號在時域上無法表現出來的某些特征變得十分明顯,一個音頻信號的本質是由其頻率內容決定的,將時域信號轉換為頻域信號一般對語音進行短時傅里葉變換。fft_audio=np.fft.fft(audio)將信號轉換為頻域之后,還需要將其轉換為有用的形式,梅爾頻率倒譜系數(MFCC),MFCC首先計算信號的功率譜,然后用濾波器組和離散余弦變換的組合來提取特征。梅爾頻率倒譜系數任務內容頻譜任務內容絕大部分信號都可以分解為若干不同頻率的正弦波。這些正弦波中,頻率最低的稱為信號的基波,其余稱為信號的諧波?;ㄖ挥幸粋€,可以稱為一次諧波,諧波可以有很多個,每次諧波的頻率是基波頻率的整數倍。諧波的大小可能互不相同。以諧波的頻率為橫坐標,幅值(大?。榭v坐標,繪制的系列條形圖,稱為頻譜。頻譜能夠準確反映信號的內部構造。語譜圖任務內容語譜圖綜合了時域和頻域的特點,明顯的顯示出來了語音頻率隨時間的變化情況,語譜圖的橫軸為時間,縱軸為頻率任意給定頻率成分在給定時刻的強弱用顏色深淺表示。顏色深表示頻譜值大,顏色淺表示頻譜值小,語譜
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 重要商業決策中的英語應用探討試題及答案
- 公司股出售合同范例
- 仿古瓦安裝合同范例
- 公司借貸融資合同范例
- 個人解除物業合同范例
- 修理物品維修合同范例
- 會議服務公司合同范例
- 全案代購合同范例
- 個人電機轉讓合同范例
- 鐵塔招聘考試試題及答案
- 2024年安徽省公務員【申論】考試真題及答案-(A卷+B卷+C卷)三套
- 浙江國企招聘2024溫州市公用事業發展集團有限公司招聘8人筆試參考題庫附帶答案詳解
- 研發月報工作總結
- 體育產業信息技術應用提升計劃
- 2025年山東魯商誠正教育科技有限公司招聘筆試參考題庫含答案解析
- 急性ST段抬高型心肌梗死溶栓治療專家共識2024解讀
- 服務消費券發放的精細化實施方案
- 【MOOC期末】《介入放射學》(東南大學)中國大學慕課答案
- 2025年國家電力安全知識競賽題庫及答案(共50題)
- 團結協作青春展新姿
- 給幼兒園講醫療知識
評論
0/150
提交評論