




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、人機交互中的語音情感識別一.研究內容及其意義隨著信息技術的高速發展和人類對計算機的依賴性不斷增強,人機交互 (Human-Computer Interaction) 能力越來越受到研究者的重視。如何實現計算 機的擬人化,使其能感知周圍的環境和氣氛以及對象的態度、情感的內容,自 適應地為對話對象提供最舒適的對話環境,盡量消除操作者和機器之間的障礙, 已經成為下一代計算機發展的目標。顯然,人的大腦所表現出來的心智現象不 僅僅體現在“智”的方面,而且還體現在“心”的方面。人工智能已經不僅僅 把研究重點放在對人腦智能實現上,而且也開展了對情感和意識方面的研究。 一般認為情感是通過語言、姿態、音樂和行為
2、等表達模式來進行交流的,而其 中語音信號中的情感信息處理的研究正越來越受到人們的重視。包含在語音信號中的情感信息是一種很重要的信息資源,它是人們感知事 物的必不可少的部分信息。例如,同樣一句話,由于說話人表現的情感不同, 在聽著的感知上就可能會有較大的差別。然而傳統的語音信號處理技術把這部 分信息作為模式的變動和差異噪聲通過規則化處理給去掉了。實際上,人們同 時接受各種形式的信息,怎樣利用各種形式的信息以達到最佳的信息傳遞和交 流效果,是今后信息處理研究的發展方向。語音之所以能夠表達情感,是因為其中包含能體現情感特征的參數。研 究認為,某種特定的情感狀態所引起的語音參數變化在不同的人之間是大致
3、 相同的,僅有微小差別。因而,情感的變化能夠通過語音的特征參數來反映, 研究從語音中提取這些情感參數就顯得非常重要。通常認為情緒所引起的生i理上的變化會對語音帶來直接的影響,而與人的生理喚醒程度相關的特征參數(聲學參數如音強、平均基音、語速等 )能夠更好地反映語音中的情感,如恐懼和生氣所引起的生理顫動會帶來相應的基頻擺動;不高興會導致聲道的緊張從而引起語音信號頻譜發生變化。另外,語音情感識別中所采用的識別方法也會對結果產生影響。目前,關于情感信息處理的研究正處在不斷的深入之中,而其中語音信號 中的情感信息處理的研究正越來越受到人們的重視,如美國、日本、歐洲、韓 國等許多國家的一些研究單位都在進
4、行情感語音處理研究工作。語音情感識別 有著非常廣泛的應用前景。比如,用于自動遠程電話服務中心,及時發現客戶 的不滿情緒;用于遠程教學和嬰兒教育,及時識別學生的情緒并做出適當的處 理,從而提高教學質量;也可以用于刑事偵察中自動檢測犯罪嫌疑人的心理狀 態以及輔助測謊等。二.國內外的研究現狀語音情感識別是語音信號處理領域崛起的新秀,相關研究至今已有二十余 年的研究歷史,對提升智能人機交互水平和豐富多媒體檢索方式有著重要的實 際意義。在1972年Williams發現人的情感變化對語音的基因輪廓有很大的影響,這是國外最早開展的語音情感方面的研究之一。1990年MIT多媒體實驗室構造了 一個“情感編輯器”
5、對外界各種情感信號進行采樣,如人的語音信號、臉部表 情信號等來識別各種情感1。1996年日本東京Seikei大學提出情感空間的概念 并建立了語音情感模型。2000年,Maribor大學的Vladimir Hozjan研究了基于 多種語言的語音情感識別2。2009年4月,日本產業技術綜合研究所(AIST)研制一個具有豐富表情的新型女性機器人“ HRP-4C” 。通過對主人語音信號的識別,機器人可以做出喜、怒、哀、樂和驚訝的表情等 3 。在國內,語音情感識別的研究起步較晚。 2001 年,東南大學趙力等人提出語音信號中的情感識別研究。 2003 年, 北京科技大學的谷學靜等人將BDI Agent技
6、術應用與情感機器人的語音識別技術研究中。 另外, 2003年 12 月中科院自動化所等單位在北京主辦了第一屆中國情感計算及智能交互學術會議。 2005 年 10月又在北京主辦了首屆國際情感計算及智能交互學術會議。三 采用的研究方法語音情感識別關注語音中的隱層情感信息,是一門涉及心理學、生理學、信號處理和模式識別等領域的交叉學科,主要任務是通過對語音信號的感知和分析,剝離出情感表達相關的聲學特征,進而識別出話者所處的情感狀態。整個識別系統中,對情感特征數據的處理能至關重要。通常地,語音情感特征向量少則數十維多則上百維,且隨著語料數量的增多,特征數據的數量將變得十分可觀。而我們受到所處的三維物理空
7、間的限制,對高維空間中的數據的理解已經十分困難。因此,面對這批數量龐大的高維數據,如何找出相同情感類別的特征數據之間的共性和不同情感類別的特征數據之間的差異變成一項復雜的工程。目前常用的特征處理方法實際上是對傳統模式識別手段的沿用(如支持向量機、神經網絡、隱馬爾可夫模型等) ,然而由此得到的非特定人語音情感識別性能并不理想。下面從幾個方面對語音情感識別的研究方法加以說明。1 .情感的分類要研究語音信號的情感,首先需要根據某些特性標準對語音情感做一個有效合理的分類,然后在不同類別的基礎上研究特征參數的性質。人類的情感是相當復雜的,常見的是喜、怒、哀、樂等目前語音情感識別研究中對于情感的分類沒有一
8、個統一的標準,研究者一般針對研究對象而做出不同的分類。目 前使用較多的是四種基本情感類型:憤怒、高興、悲傷、驚奇。在心理學領域 被普遍接受的是Robert Plutchik 教授提出的八種原型情感模型,八種情感為: 恐懼、驚奇、悲傷、厭惡、憤怒、期望、高興、接受。對于情感的分類,研究 者始終沒有達成共識。2 .情感語音庫的建立情感語音庫是語音情感識別研究的基礎,如何建立一個有效的情感語音庫對于提高語音情感識別率具有重要影響。 語音庫的建立大體上分為三種形式.第 一種數據庫來自專業或業余演員的表演,朗讀預先準備的句子或段落。由于這 種方法操作簡單,目前大部分情感語音數據庫都是用這種方法獲得的。第
9、二種 數據庫是讓錄音者置身于一個虛擬場景,從虛擬環境中誘引出語音。第三種數 據庫來自現實生活,是人們在現實生活中表現出最真實情感的語音,但要用這 種方法獲得情感語音數據庫非常困難。用三種方法獲取的數據庫其自然度各不相同,文獻4通過試驗發現,在使用同樣特征參數的情況下,用不同方法獲得的數據庫其情感識別率不同。Batliner 等人使用線性判別分析(LDA)法結合韻律特征,對三種不同自然度的情感語音數 據庫進行了分類試驗,結果表明,情感語音的自然度越高,識別率越低。3 .語音信號的情感特征提取一般來說,語音中的情感特征往往通過語音韻律的變化表現出來。語音情感的變化通常可以體現為語音特征參數的變化。
10、統計分析表明,高興時,通常是 語速較快,音量較大;悲傷時,通常是語速緩慢,音量較小。基音是最常用的 判定情感的語音特征,它反映了超音段的信息。在語音情感識別中使用的特征 參數有基頻(Pitch ),其次才是能量(Energy)、語速(Speech Rate)、共振峰 頻率(Formant)、單個音節的持續時間(Duration )、音節之間的停頓時間 (Pause)、線性預測系數(LP。、Mel倒譜系數(MFCC等,以及它們的各種變 化形式,如最大值、最小值、均值、范圍、變化率等等。這些參數主要體現的 是人體的聲門和聲道的特征,因此和人的生理構造有著密切的關系,在不同的 個體上顯現出較強的相異
11、性。基于心理學和韻律學研究的結果,說話者的情感在語音中最直觀的表現就 是韻律特征和語音質量的變化。因此對語音情感識別的研究普遍從韻律特征和 音質特征開始,尤其是韻律特征,被認為是最主要的語音情感特征。下面是采 用MFCC參數的具體提取過程。MFCC系數是基于人耳聽覺特性提取的特征參數,對人類聽覺系統的研究 表明,人耳對不同頻率的聲音信號的響應是非線性的。不同頻率聲音形成的波, 在沿著耳蝸基底膜傳播的過程中,峰值出現在耳蝸基底膜的不同位置,且與聲 音頻率呈對數關系。為模擬人耳的這種非線性特點,提出了各種頻率彎折方法, 如Bark度、等效矩形帶寬度和Mel頻率尺度,其中Mel頻率尺度是目前使用最
12、廣泛的語音特征之一,具有計算簡單、區分能力好等突出的優點,所謂 Mel頻 率尺度,它的值大體上對應于實際頻率的對數關系。其與實際頻率的具體關系 如下:Mel f 25951g 1 f 700( 3-1)其中實際頻率f的單位為Hz。下面是本文進行MFCC計算的具體過程,用短時 分析技術,應用了窗長為21.33ms (256),幀移為10ms的漢明窗。計算過程如 下圖3-1所示:其具體的計算步驟如下:對語音信號用濾波器Hz 1 0.9375Z 1作高頻預加重,然后對其進行分幀, 用漢明窗函數(窗長為21.33ms,窗移為10ms)對每幀進行加窗處理,減少 吉布斯效應,使原語音信號變為短時信號 S
13、n ;用長度為256的FFT對加窗后的語音信號由時域信號變為頻域信號,并計算 出信號的功率譜p f ;根據上式(3-1)將p由在頻域軸上的頻譜轉化為美爾(Mel)坐標上的p(M), 其中M 表示Mel坐標頻率。通過一個具有24個濾波器的濾波器組,得到頻率在0-4000Hz之間的能量信 號;計算通過各頻帶的能量并取對數得到 mj ;對mj進行下式的離散余弦變換(DCT)就得到了 MFCC系數。2 Nicj J- mj cos - J 0.5(3-2)j N j 1 j N為了進一步提高Mel倒譜特征參數的抗噪性能和改善識別性能,可以將 MFCC 和其一階差分參數、二階差分參數結合起來組成一組特征
14、矢量進行訓練。設定 MFCC的階數為12,那么其一階差分的計算公式為:c ic2 c1,c3 c2,.,cN cN 1 i 1,2,.,N 1(3-3) 語音持續時間計算每一情感語音從開始到結束的持續時間提取持續時間時應包括無聲部分,因為無聲部分對情感是有貢獻的。 基音頻率基音是指物體振動時所發出頻率最低的音,利用倒譜法逐幀計算出基音頻率,考慮到可能產生檢測錯誤,因此對結果進行中值濾波和線性平滑處理。可以選取平均基音頻率,最大基音頻率、基音頻率的平均變化率等參數用于情感識別 語音信號的能量由于語音信號的能量隨時間變化,清音和濁音間的能量差別相當顯著,因此對短時能量進行分析,可以描述語音的清濁音
15、變化情況。短時能量定義為:n2En xm n m(1)mnN1式( l )中,漢明窗函數n 平方的物理含義是一個沖激響應為 n 2 的濾波器。首先求出語音信號各樣本點值的平方,然后樣點通過濾波器輸出由短時能量構成的時問序列。采用窗長N=23.22ms(256點),在滿足對語音振幅瞬間變化的細節進行了有效平滑的前提下,保證了短時能量的明顯變化。識別時可以將情感語音短時能量變化率和有聲部分平均短時能量作為特征參數。語音信號的振幅信號的振幅特征與各種情感信息具有較強的相關性。短時能量函數存在對信號電平值過于敏感的問題,可通過平均振幅函數來衡量語音幅度的變化,其定義為M n x n n m m n N
16、 1式(2)可以理解為窗函數n對信號進行了線性濾波運算。與短時能量比較,短時平均振幅用絕對值之和代替了平方和,簡化了運算。由于振幅的瞬間最大 值很難屏蔽掉一些干擾導致的突變,那么取得的值將是不準確的。因此,可以 選取從發音開始到結束之間的平均振幅的最大值作為最大振幅.同時提取振幅 平均變化率作為參數用于語音情感識別。共振峰共振峰是反映聲道特性的一個重要參數,因為不同情感的發音可能使聲道有 不同的變化,所以能夠預料到不同情感發音的共振峰的位置不同.本文首先用 線性預測法求出預測系數,然后用預測系數估計出聲道的頻響曲線,再用峰值 檢出法計算出各共振峰的頻率。可以選取共振峰頻率的平均值、共振峰頻率的
17、 平均變化率、共振峰峰值點回歸直線的平均斜率以及共振峰峰值的平均值等作 為識別用特征參數。4.語音情感識別方法基于隱馬爾可夫模型的識別方法隱馬爾可夫模型可用下面三個模型參數來定義,即入 =(兀,A, B)。其中A 為狀態轉移概率的集合,B為輸出觀測值概率的集合,兀為系統初始狀態概 率的集合。根據HMMI型,對于一個含有V種情感狀態語音,每個情感狀態有 K個語 音樣本的待識別語音庫進行語音情感識別,要完成以下工作15:10 對于每個情感狀態V,要建立對應的隱馬爾可夫模型入v=(兀,A, B)。四.結論總之五參考文獻【 1】 S Chennonkh。 A Gerrits,G Miet,R Slni
18、jter Speech Enhancement viaFrequency Extension using Spectral FrequencyA Proc ICASSP C SaltLakeCity,2001 5【 2】陳建廈語音情感識別綜述A 第一屆中國情感計算會議 C. 北京 ,2003【3】方恨少.日本新型女機器人 HRP-4c會說話表情豐富EB/OL.http : /info china alibaba com news detail v5000441-d1004571420 html 2009-3-16【 4】 Ktlsmef D,Tato R, Kemp T,et a1 Towards Real Life Applications in EmotionRecognition: comparing Different Datab
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 代謝籠租賃服務及實驗動物飼養管理協議
- 電商店鋪裝修設計及供應鏈管理合作協議
- 跨境知識產權忠誠協議資產凍結與知識產權保護協議
- 房屋相鄰權與物業管理服務合同
- 網絡廣告技術服務補充協議
- 智能家居網關設備研發與市場推廣服務合同
- 專屬私人飛機航線申請與VIP接送合同
- 員工股權解鎖與公司融資協議
- 生物檢測試劑盒市場推廣及銷售合作合同
- 現代化工企業生產管理體系建設
- 2025屆陜西省咸陽市高三模擬檢測(三)生物試題(原卷版+解析版)
- 壓力容器焊工試題及答案
- 2025年安徽省合肥市第四十二中學中考二模物理試題(含答案)
- 少先隊理論測試題及答案
- 2024年河北省臨漳縣事業單位公開招聘村務工作者筆試題帶答案
- (市質檢)莆田市2025屆高中畢業班第四次教學質量檢測試卷英語試卷(含答案解析)
- 污水處理廠運營維護方案運營維護方案篇
- 【MOOC】中藥藥理學-學做自己的調理師-暨南大學 中國大學慕課MOOC答案
- 電子公章模板
- 大中型水庫控制運用計劃編寫大綱
- 北京大興生物醫藥基地詳介ppt課件
評論
0/150
提交評論