多媒體技術(shù)語音識別技術(shù)_第1頁
多媒體技術(shù)語音識別技術(shù)_第2頁
多媒體技術(shù)語音識別技術(shù)_第3頁
多媒體技術(shù)語音識別技術(shù)_第4頁
多媒體技術(shù)語音識別技術(shù)_第5頁
已閱讀5頁,還剩18頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

語音識別的技術(shù)實現(xiàn)多媒體技術(shù)multimediatechnology止于至善報告人:

報告日期:2019/10/17——采用復(fù)倒譜峰值濾波GMM

識別混響語音止于至善目的實現(xiàn)功能步驟及流程圖模塊具體實現(xiàn)方法實現(xiàn)原理參考文獻(xiàn)010102020303040405050606目的Purpose止于至善目的隨著生物識別種類的不斷增加,以語音為基礎(chǔ)的身份驗證方式似乎比其他方式更容易讓人接受,因為語音識別具有非接觸、非侵入性和易于使用的特點,所以語音識別特別受大眾消費者的喜歡。根據(jù)Unisys公司調(diào)查顯示,消費者喜歡的生物安全措施排名如下頁扇形圖所示,通過這個排名可以看出大多數(shù)人更喜歡方便實用的語音識別技術(shù)。止于至善4目的20%面部識別32%語音識別27%指紋識別止于至善512%掌型識別10%虹膜識別實現(xiàn)功能Achievefunction止于至善實現(xiàn)功能語音識別功能的存在,可以保證我們能夠只使用語音便能達(dá)到代替雙手輸入的功能,可以讓智能語音設(shè)備反饋給我們其他用戶反饋的語音消息。例如在自己雙手騰不開的時候,又急需要給重要的人發(fā)送消息,而對方可能在開車或者開會,沒有辦法及時地去處理語音消息。這時候如果使用微信的語音輸入功能,這一問題就得到了解決。在使用社交軟件與人交流的時候,使用文字會顯得更為莊重正式,而使用語音則顯得比較親密隨意。但是很多情況下,我們來不及根據(jù)情況去決定使用哪種輸入的方式,所以語音轉(zhuǎn)文字的功能就顯得十分必要了。止于至善7實現(xiàn)功能步驟及流程圖Stepsandflowchart止于至善步驟止于至善91預(yù)處理對語音信號進(jìn)行分析和處理,除去冗余信息特征提取提取影響語音識別的關(guān)鍵信息和表達(dá)語言含義的特征信息23訓(xùn)練后臺按照不同語法,依照先后次序識別字詞;系統(tǒng)緊扣特征信息,用最小單元識別字詞5對比匹配系統(tǒng)進(jìn)行語義分析,給關(guān)鍵信息劃分段落,取出所識別出的字詞并連接起來,同時根據(jù)語句意思調(diào)整句子構(gòu)成數(shù)據(jù)庫智能算法能把語法邏輯當(dāng)作輔助識別條件,有利于分析和識別4識別結(jié)果最后智能結(jié)合語義,仔細(xì)分析上下文的相互聯(lián)系,對當(dāng)前正在處理的語句進(jìn)行適當(dāng)修正6流程圖流程圖模塊具體實現(xiàn)方法Moduleimplementationmethod止于至善預(yù)處理預(yù)處理過程常用典型方法有端點檢測、聲道轉(zhuǎn)換、預(yù)加重、去加重、分幀、加窗、重采樣等,不同的語音識別在預(yù)處理順序上有一定差別。止于至善12具體描述:

端點檢測的唯一目的就是找到語音信號的起始點和結(jié)束點。端點檢測最常用的方法就是雙門眼檢測法。雙門眼檢測法是通過計算門限能量的方式來判斷語音端點的技術(shù),一般會在語音識別之前設(shè)置雙門的門限λ,然后分別計算每個時刻的語音能量,若該能量大于門限閾值,則新生成門限序列為1,反之則為0,從而得到門限序列后,將其點乘原始語音序列,得到有效語音序列。預(yù)處理階段使用預(yù)加重技術(shù),在語音信息的處理階段預(yù)先添加與原始語音高頻信號,通過疊加之后,原始語音信息在高頻和低頻段的能量相當(dāng),使得識別效率明顯提升。而在語音識別系統(tǒng)的輸出端,則需要做相反的處理,也就是去加重,采用相反的負(fù)能量信號將添加的高頻成分去掉,從而還原原來的信號分布,有效提高聲音信號的信噪比。預(yù)處理分幀預(yù)處理的缺點分幀從簡單來說,一段信號整體是不穩(wěn)定的,但從局部來看,信號是穩(wěn)定的,所以要想接收端接收平穩(wěn)的信號,就需對整段語音進(jìn)行分幀,也就是切成幾段。但是需要注意的是,根據(jù)香農(nóng)定理,分幀越多地聲音片段,其開始段和結(jié)束段會存在聲音不連續(xù)的現(xiàn)象,導(dǎo)致了分幀的幀長越短,信號的誤差就越大。為了解決此問題,語言學(xué)家提出了利用帶通濾波器來過濾的方法,也就是加窗。常見的三種窗函數(shù)是矩形窗、漢明窗和漢寧窗。某些人的語言習(xí)慣,可能會出現(xiàn)反復(fù)出現(xiàn)某個詞語,或說話結(jié)結(jié)巴巴以及語音識別運用時的外界環(huán)境的復(fù)雜性,可能會出現(xiàn)方言,別的語種類型的語言會導(dǎo)致預(yù)處理不當(dāng)。止于至善13特征提取及訓(xùn)練的典型方法HMM聲學(xué)模型如今主流語音識別系統(tǒng)都采用隱馬爾科夫模型(HMM)作為聲學(xué)模型,這是因為HMM具有很多優(yōu)良特性。HMM模型的狀態(tài)跳轉(zhuǎn)模型很適合人類語音的短時平穩(wěn)特性,可以對不斷產(chǎn)生的觀測值(語音信號)進(jìn)行方便的統(tǒng)計建模;與HNN相伴生的動態(tài)規(guī)劃算法可以有效地實現(xiàn)對可變長度的時間序列進(jìn)行分段和分類的功能;HMM的應(yīng)用范圍廣泛。只要選擇不同的生成概率密度,離散分布或者連續(xù)分布,都可以使用HNM進(jìn)行建模。HMM以及與之相關(guān)的技術(shù)在語音識別系統(tǒng)中處于最核心的地位。特征提取及訓(xùn)練的典型方法CNN卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行語音識別研究優(yōu)點:深度卷積神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)中最常用網(wǎng)絡(luò)結(jié)構(gòu)之一,已被廣泛應(yīng)用于圖像識別、自然語言處理、語音識別等領(lǐng)域。語音識別作為人機交互最主要的入口,具有重要的研究意義。基于深度卷積卷積網(wǎng)絡(luò)的聲學(xué)建模研究和深度卷積神經(jīng)網(wǎng)絡(luò)的時、頻譜特征提取。利用深度卷積神經(jīng)網(wǎng)絡(luò)強大的建模能力,有效地描述語音特征的狀態(tài)空間分布,并與HMM結(jié)合實現(xiàn)聲學(xué)建模。

缺點:CNN聲學(xué)模型的訓(xùn)練占用了大量的時間,將來聲學(xué)模型必定是建立在成千.上萬小時語音數(shù)據(jù)和更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)之上訓(xùn)練得來的。目前來看搭建多GPU集群是有效的解決方案,其中網(wǎng)絡(luò)分布式訓(xùn)練、GPU之間的數(shù)據(jù)通信等關(guān)鍵技術(shù)需要進(jìn)步研究。高質(zhì)量的聲學(xué)特征對語音識別系統(tǒng)而言是十分重要的,需要設(shè)計出更加合理高效的特征提取網(wǎng)絡(luò)以便于從語音的時頻譜中獲取有價值的聲學(xué)特征。特征提取及訓(xùn)練的典型方法RNN循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行語音識別研究優(yōu)點:首先利用小波變換分析改進(jìn)了特征提取環(huán)節(jié),其次分析了循環(huán)神經(jīng)網(wǎng)絡(luò)的基本原理和訓(xùn)練算法BPTT后,對語音的特征訓(xùn)練以及識別是建立在數(shù)字“0~9”的實驗之上,并經(jīng)過與其他方法的識別率對比驗證了循環(huán)神經(jīng)網(wǎng)絡(luò)對語音處理的優(yōu)勢。縱觀全文,雖然在實驗中獲得了較好的實驗結(jié)果。

缺點:實驗采用的測試語音相對來說是低噪聲、純凈的語音,并未測試在不同噪聲環(huán)境下的識別效果。語音作為人機交互的方式之一,將在以后的人工智能技術(shù)中應(yīng)用得越來越多且越來越智能、便捷,而對語音識別的研究與探索將更有意義,之后的研究工作將不局限于數(shù)字語音、少量詞匯的識別,而是探索日常交流對話的語言識別與理解,以期獲得更高的準(zhǔn)確率和現(xiàn)實應(yīng)用。特征提取及訓(xùn)練的典型方法基于受限玻爾茨曼機(RBM)優(yōu)點:相較于傳統(tǒng)的語音特征提取算法,RBM擁有很強的數(shù)據(jù)特征適應(yīng)性,可以準(zhǔn)確表征出不同數(shù)據(jù)的本征特征,這在多目標(biāo)數(shù)據(jù)訓(xùn)練中的優(yōu)勢尤其明顯,具體表現(xiàn)為算法更穩(wěn)定及多目標(biāo)的綜合誤差更低。此外,RBM的訓(xùn)練采用無監(jiān)督學(xué)習(xí),可使用大量存在缺失標(biāo)簽的數(shù)據(jù),增強了算法的對數(shù)據(jù)類型的適應(yīng)性。

缺點:由于語音信號的種類和數(shù)量有限,需要收集和處理現(xiàn)實環(huán)境下的語音信號,并將其數(shù)據(jù)化標(biāo)簽化。在今后的研究中,還要考慮噪聲、方言、不同語義等環(huán)境因素,因此還需進(jìn)一步改進(jìn)特征提取方法。實現(xiàn)原理Principleofimplementation止于至善實現(xiàn)原理原理闡述

實現(xiàn)原理原理闡述

參考文獻(xiàn)RelevantReference止于至善參考文獻(xiàn)止于至善[1]栗學(xué)麗,徐柏齡.混響聲場中語音識別方法研究[J].南京大學(xué)學(xué)報:自然科學(xué)版,2003[2]趙賢宇,王作英.用于語音識別的魯棒自適應(yīng)麥克風(fēng)陣列算法[J].清華大學(xué)學(xué)報:自然科學(xué)版,2004[3]張德會,陳光冶.一種基于維納濾波去除語音通信中混響的方法[J].上海交通大學(xué)學(xué)報,2006[4]廖啟鵬,孔榮.基于最小相位分解的語音去混響[J].通信技術(shù),2011[5]SoS,PaliwalKK.Multi-frameGMM-

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論