北郵郭軍web搜索chapter4_第1頁
北郵郭軍web搜索chapter4_第2頁
北郵郭軍web搜索chapter4_第3頁
北郵郭軍web搜索chapter4_第4頁
北郵郭軍web搜索chapter4_第5頁
已閱讀5頁,還剩47頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

Web搜索

郭軍

北京郵電大學

第4章音頻檢索聲學特征提取

HMM模型連續語音識別系統語音關鍵詞發現技術語音詞匯檢測技術非語音音頻檢索音樂檢索音頻檢索的策略音頻檢索起步較晚,但目前已經成為一個新熱點語音類音頻檢索的一個自然策略是語音識別文本檢索全文的轉換或關鍵詞的轉換直接基于聲學特征進行檢索的策略越來越受到重視音頻檢索也有兩種基本模式基于示例/基于查詢詞音頻檢索的困難音頻信號種類繁多,環境噪聲差異性大聲學特征提取音頻信號常具有高度的時變性,只有在一個較短的時間段內才可視為平穩的分幀操作:語音信號,一般以20ms左右為一幀為去除邊界效應,相鄰幀要相互重疊,常用的比例是1/2時域特征第n幀信號的短時能量第n幀信號的短時平均幅度第n幀信號的短時過零率頻域特征—LPC參數頻域上的語音譜S(z)是激勵譜E(z)通過傳遞函數為V(z)的線性系統后產生的輸出語音信號產生模型把實際聲道近似為P段不同截面積的短聲管的串聯,采用全極點模型將上式右側第二項看作s(n)的線性預測值s‘(n),將Ge(n)看作誤差項,則聲道參數ai可以通過求解線性預測參數的最小均方誤差準則求得轉換到時域,語音信號s(n)和激勵信號e(n)之間的關系為Mel倒譜系數MFCC人耳對臨界帶寬內的音調具有掩蔽效應當兩個頻率相近的音調同時發出時只能聽到一個音調MFCC的提取過程通過Mel頻率濾波器組得到信號的Mel頻率HMM模型Markov模型可用離散時域有限狀態機FSM描述FSM有N種狀態,用1~N表示,在時刻t所處的狀態用qt表示每個狀態下可能的輸出值的為O={o1,…,oM}FSM初始化時可位于N個狀態中的任何一個,其初始狀態分布為πi

=P(q1=i),i=1,…,NFSM在當前狀態以某種概率向任意的狀態跳轉,狀態轉移概率矩陣用A表示,A={aij}如果在任意時刻t,外界都看不到FSM的內部狀態qt,只能得到一個觀測值ot,而ot與qt之間的關系可用條件概率P(ot|qt=j)來描述,則稱此Markov模型HMMHMM的描述HMM可用符號λ={A,B,π}來描述A為狀態轉移概率矩陣A={aij}N×NB為觀測值概率矩陣B={bj(ot)}N×Tπ為初始狀態分布π={πi}前向HMM的示意圖HMM的三個基本問題識別問題對于給定的觀測序列O=(o1,…,oT)和模型λ={A,B,π},計算由λ產生O的概率P(O|λ),常用前向和后向算法譯碼問題對于給定的O

和λ,求λ對應于O的最佳狀態序列Q*,即尋找使P(O|λ)達到最大時,O所對應的狀態序列,一般采用Viterbi算法求解訓練問題對于給定的O,如何獲得產生O的概率最大的模型λ,一般采用Baum-Welch算法求解HMM的基本問題的經典算法識別問題前向、后向算法:從入口狀態或出口狀態開始遞推的方法。兩種算法可以單獨使用,也可結合使用譯碼問題Viterbi算法:基于動態規劃的方法搜索HMM模型中對應觀測序列O的可能性最大的狀態序列X*訓練問題Baum-Welch算法是一種廣義的EM算法,利用R個觀測序列迭代估計HMM的參數λ基于HMM的語音識別統一框架大詞匯量連續語音識別系統語音關鍵詞發現(SKS)技術最初用在人機口語對話系統,現開始在音頻檢索中應用自底向上法:先將語音識別為一串串音素,然后再檢測音素串中是否包含關鍵詞自頂向下法:以關鍵詞的聲學模型為基礎進行檢測基于垃圾(fillerorgarbage)模型的關鍵詞發現

垃圾模型的建立理想的垃圾模型應有足夠的能力匹配所有非關鍵詞的語音特征,同時與關鍵詞模型之間有足夠遠的距離垃圾模型的實現有顯式和在線兩種方法顯式垃圾模型有子詞垃圾和集外垃圾兩種實現方法子詞垃圾方法:Filler與Keyword共享一套子詞模型,Keyword是子詞的串接,Filler也是子詞的串接集外垃圾方法為Filler建立專門的聲學模型,與Keyword的聲學模型相獨立在線垃圾模型將每個語音幀與所有關鍵詞模型匹配最佳的N個單元的平均分作為該幀的在線垃圾模型得分,來衡量該幀是否與某個關鍵詞模型匹配

一個側重確認的SKS系統以基于HMM的連續語音識別技術為核心采用I型搜索網絡高性能的檢出關鍵詞確認聲學模型以擴展的聲韻母單元為識別單元搜索網絡權值的設定減小垃圾模型組的權重/加大關鍵詞模型組的權重關鍵詞KWi的權重設為

基于似然比的檢出關鍵詞確認假設檢驗:假定某段語音特征向量O被識別成某個詞W原假設H0:O的識別結果為W備擇假設H1:O的識別結果為非W則兩個假設成立的概率對數似然比

當LR大于閾值t時選擇H0,否則選擇H1詞是由子詞串接而成時,可將LR的計算下移到子詞層,子詞層的似然比可以表示為(λ為目標子詞對應的HMM)

反詞概率密度的建模(1/2)訓練顯式反詞模型把反詞模型分為兩部分稱為背景模型,用所有的訓練樣本生成稱為冒充模型,用來對混淆音建模。利用與目標子詞最容易混淆的前N個子詞的樣本訓練得到。反詞概率密度的建模(2/2)利用目標模型外的其它模型構造反詞模型假定模型空間中除目標模型λ之外的其它模型為{λi}簡單的方法是在{λi}中找一個得分最高的模型與目標模型比較,獲得目標模型的得分這相當于用1-Best競爭模型表示反詞模型。如果取前M個競爭模型的平均,則:一個通用的計算公式是:語音詞匯檢測STDSKS事先確定目標詞的集合STD每次要檢測的詞是可變的STD系統一般由索引和搜索器組成索引利用語音識別對語音文檔中包含的音素串建立地址和長度標記搜索器根據用戶的查詢詞對索引進行訪問索引詞是語音識別系統的詞匯集中的詞加上音素串所能生成的集外詞查詢詞是用戶所關心的任意詞2006年NIST組織了第一次STD評測,引起了廣泛的關注基于Lattice建立索引的方法被多家采用

Lattice與混淆網絡音節Lattice:用“網格”的形式保留HMM搜索空間中各種可能的音節路徑

混淆網絡:將Lattice中不同長度的詞序列進行時間對齊,將Lattice簡化為一種線性結構

混淆網絡的生成算法及定義1:在Lattice上利用前向-后向算法計算弧的后驗概率2:剪枝:剪去后驗概率小于指定閾值的弧3:詞內聚類:合并對應同一個詞的弧,并對它們的后驗概率求和4:詞間聚類:將那些競爭相同時間段并且具有類似語音學特性的詞組成一組,不同的時間段形成不同的組,形成一個個混淆集混淆網絡的格式定義alignsliceIDsliceIDword1starttimedurationascoregscorephonesphonedurs

基于音節混淆網絡的STD系統STD的索引建立利用語音識別完成語音-文本轉換STT,生成音節Lattice將Lattice轉化為音節混淆網絡基于音節混淆網絡建立音節索引通過重疊的N-gram音節語法建立前向索引將前向索引倒排,獲得反向索引前向索引例(1~3元模型)tianPr:1Starttime:0.40Endtime:0.52SliceID:4tiancanPr:0.7Starttime:0.40Endtime:0.63SliceID:45tiansanPr:0.8Starttime:0.40Endtime:0.63SliceID:45tiancanxiePr:0.85Starttime:0.40Endtime:0.74SliceID:456tiancanyePr:0.95Starttime:0.40Endtime:0.74SliceID:456tiancanbiePr:0.80Starttime:0.40Endtime:0.74SliceID:456canPr:0.4Starttime:0.52Endtime:0.63SliceID:5canxiePr:0.35Starttime:0.52Endtime:0.74SliceID:56……反向索引及檢索將所有語音文件的前向索引按照音節串ID(詞ID)和置信度大小排序就可構成用于檢索的音節串的反向索引兩個反向索引I:WordIDPrStarttimeEndtimeSliceIDII:SliceIDWordID-Ptr索引I是詞反向索引索引II是混淆集反向索引檢索音節串時兩個索引交替使用例如搜索“八達嶺長城(badalingchangcheng)”時用“badaling”搜索索引I,根據返回結果得到結束SliceID序號將該SliceID加1后搜索索引II,得到一個指向索引I的入口WordID-Ptr,看從中是否可查到“changcheng”非語音音頻檢索非語音音頻,如音樂、鳥鳴、狗叫、虎嘯、馬達聲等無法通過語音識別的方法進行文本標注其檢索問題需要采取與語音檢索不同的技術來解決,可用機器學習的方法建立聲學模型與語義模型之間的聯系相關的研究主要有音頻分類、音頻檢索以及圖像視頻檢索音頻分類的性能主要取決于聲學特征的選取MFCC比LPC更有效音頻檢索研究重點QBE:哼唱查詢(QuerybyHumming)QBK:研究的重點在聲音的語義建模,[Buchanan05]提出了一個完整的聲學—語義框架和一套建模方法Buchanan的聲學—語義框架分別建立聲音的聲學空間和語義空間在聲學空間中,對實際的音頻內容進行建模在語義空間中,對描述聲音的詞匯進行建模兩個空間均采用統計方法建模,將實例表示為特征向量在聲學空間對不同聲音的相似性進行推算在語義空間對不同聲音的文本描述間的相似性進行推算兩個空間之間的聯系依靠已知聲音及其文本描述來建立這種聯系(對應關系)形成了兩個空間分布之間的相互映射聲學模型—特征抽取建立聲學模型的第一步是確定采用的特征MFCC特征被證明是有效的幀尺寸應小于20ms系數的數量可在8、12、16中間選擇外加能量項為捕捉聲音的時變特性,需加入Delta倒譜特征,設靜態倒譜為x(t),Delta倒譜定義為必要時,還可以Delta倒譜為基礎計算二階差分,即DoubleDelta倒譜,以此反映靜態倒譜變化的加速性質利用上述特征,每段聲音就會被映射為特征空間中大量的點,形成一個點分布聲學模型—點分布的概率建模GMM是對上述點分布進行建模的理想方法將特征空間中的樣本當作一個整體來建模,而不去區分它們在時間上的先后順序盡管一段聲音不一定在聲學空間形成明顯的分布簇,但通過足夠的混合分量,它的分布能夠得到近似描述一個D維的聲學特征向量x,其概率密度函數p(x)的GMMGMM的參數常用EM算法進行估計,一個訓練任務需要估計混合權重πi和分布參數θi={μi,Σi}兩套參數,混合度K是一個需要預先確定的值GMM參數估計的EM算法E-step:估計各個樣本屬于各個混合分量的概率,令wij為在當前的參數估計條件下數據xi屬于第j個混合分量的概率,則:M-step:利用所有訓練數據計算新的權重、均值和協方差矩陣語義模型—VSM語義特征空間由各個聲音的描述文檔中的詞匯支撐VSM用m×n的詞—文檔矩陣對于包含詞匯t1,t2,…tm和文檔d1,d2,…dn的聲音描述文檔集合建模每一列代表一個文檔,每一行代表一個詞詞在各個文檔以及整個集合中的權重用TF-IDF表示TF取fij的二值形式bij,IDF取熵加權的方式pij=(fij/gi),gi為ti在集合中出現的次數,n為集合中的文檔數語義模型—LSI通過將詞—文檔矩陣A向低維空間映射來獲取詞匯之間潛在的關系采用SVD的方法A=USVT只取前k個特征值關于LSI的維數k的實驗當k升至50左右時,LSI的效果已經趕上VSM在k等于70左右達到最大,分類錯誤率在VSM基礎上降低50%左右在k等于70到100之間,性能基本保持穩定超過100后,性能開始緩慢下降聲學空間與語義空間的聯系雙向檢索(聲音語義/語義聲音)需要建立聲學模型和語義模型之間的映射關系依賴于訓練集合中已知的聲音及其語義描述之間的關系在聲學空間中,n個訓練樣本(聲音)各有一個GMM,每個GMM對每個訓練樣本都有一個似然度,構成n×n的似然度矩陣在語義空間中,每個聲音的描述文檔有一個LSI(或VSM)模型。這n個模型之間的相似度也可以用n×n的矩陣來表示觀察發現上述似然度矩陣和相似度矩陣盡管有相似之處,但卻是不同的,不能相互代替需分別建立聲學語義和語義聲學的聯系聲學語義的聯系基本原理:利用聲學模型計算測試聲音與各已知聲音的相似度,根據最相似的已知聲音的語義文檔來描述測試聲音具體過程:測試聲音MFCC各GMM對該MFCC的似然度似然度最高的語義文檔可將已知的n種聲音聚類以建立測試聲音與混合聲音語義間的聯系采用匯合聚類策略歸一化的相似度側度聚類結束后,對所產生的層次結構中的所有非葉子節點,都要利用其中包含的所有聲音訓練一個GMM聚合類用在所含子類的描述中出現頻度最高的k個詞描述語義聲學的聯系基本原理:與輸入的語義查詢最相關的描述所對應的聲音是最可能的查詢結果查詢和描述之間的語義相似度可以通過LSI來計算對未標注的聲音數據庫進行語義查詢的兩種方法利用與語義查詢最匹配的k個已知聲學模型GMM計算未標注聲音X的似然度直接利用MFCC的點分布進行計算在MFCC聲學空間中,一段聲音是一個點分布。可以直接利用各個點分布的質心之間的距離來估測它們之間的相似性,減小計算量質心之間的距離可用馬氏距離度量音樂檢索是非語音音頻檢索的典型代表,社會需求十分旺盛哼唱檢索研究較早,已有一些系統推向了商用語義檢索是新興的一種音樂檢索形式音樂中相關的基本概念(音樂語言的維度)音高(Pitch):聲音的振蕩頻率,將440Hz的聲音定為“A"音強(Intensity):與振動的幅度(能量)成正比,也叫響度音色(Timbre):人們能夠感知的與發音器官或器具的物理性質有關,獨立于音高和音強的聲音特性音長(Duration):一個音所持續的時間長度和聲(Harmony):兩個以上的聲音按照一定規律同時發生形成的組合節奏(Rhythm):一個聲音序列的長短和強弱的變化旋律(Melody):經過藝術構思而形成的若干聲音和諧的有節奏的結構,也叫“曲調”音樂的表現形式及文件格式音樂的表現有創作和表演兩種形式樂譜是音樂作品的基本表現形式,是去除了表演風格和方法的“純凈”版本對于同一個作品,不同的演奏(唱)者存在著風格和方法上的差異音樂文件格式符號格式(Symbolicformat):面向樂譜的表示音頻格式(Audioformat):用于音樂演出的數字化記錄,常見的格式包括CD、AIFF、WAVE、AU、MP3等樂器數字接口MIDI(MusicalInstrumentDigitalInterface):是符號和音頻兩種格式的折衷,主要用于數字樂器之間的數據交換音樂檢索的特征表示旋律和節奏是最常用的音樂檢索特征旋律的表示絕對法:用字符或數字對音符的絕對音高、音長進行表示相對法:用后一個音符與前一個音符的音高之差作為音高的特征向量,而用后一個音符與前一個音符的音長的比值作為音長的特征向量輪廓法:常用S(same)、U(up)和D(down)表示一段樂曲中當前音符與其前面的音符的相對高低節奏的表示排除樂曲的旋律,有多種簡單的表示方法。例如分別用a,b,c,d,e,f.?表示八分之一音符、八分之二音符等等音樂檢索的特征提取旋律的提取符號文件十分易于提取旋律要獲得音頻文件的旋律需要獲得每一幀的音高幀內音高提取可分別在時域和頻域進行,時域有自相關函數法、平均幅度差分法等,頻域有和聲乘積頻譜法、倒譜法等節奏的提取對于絕大多數流行和搖滾音樂,通常采用“節拍跟蹤”技術進行節奏識別從信號處理的角度,可以利用信號幅度包絡線的周期變化得到相應的節奏信息,具體可通過自相似矩陣或者自相關函數得以實現哼唱檢索通過接收用戶哼唱的一段音樂(歌曲或樂曲)片段來對數據庫中的音樂進行檢索是一種以聲學信號查詢聲學文檔的檢索,屬于QBE系統哼唱一段旋律或曲調來查詢音樂是一種自然的易于被用戶理解和接受的檢索方式需解決的關鍵問題哼唱中旋律、節奏等關鍵特征的提取音樂文檔和查詢之間的相似度的計算對用戶不準確的哼唱的“容錯”提高系統的計算效率以使檢索可以面對大量音樂文檔若干代表系統MELDEX(新西蘭人開發)面向1萬首民間流行的歌曲采用3級音高輪廓和節奏信息表示旋律利用哼唱的前20個音符進行動態規劃查詢Tunesever(德國人開發)面向1萬首經典音樂,1百首流行音樂,1萬5千首民間歌曲和1百首國歌采用3級音高輪廓表示旋律用口哨查詢MiDiLib(德國人開發)面向2千首MIDI文檔采用大于3級的音高加節奏的方式表示旋律用口哨查詢旋律的表示和提取用3級或5級音高輪廓線表示旋律3級表示:U/D/S5級表示:++/+/0/-/--旋律提取方法將查詢信號或音樂文檔信號分割為不同的音符給每個音符賦予一個用頻率表示的音高比較相鄰音符的音高,獲得信號的U/D/S等序列查詢信號的旋律提取是一個有難度的問題常要求用戶按限定的方式輸入查詢如口哨、da音、ta音等聲學信號的音高提取常采用自相關函數法

因為R(τ)在基頻的整數倍處存在較大的峰值查詢與索引的匹配索引:音樂文檔中顯著的容易被人記憶的多個段落的旋律由于用戶的哼唱常包含錯誤,因此查詢與索引的匹配需采用有彈性的方法基于最小編輯距離的動態規劃方法被普遍應用面向3級輪廓線的遞歸式最小編輯距離計算方法設旋律A和B的輪廓線分別為(a1,…,am)和(b1,…,bn),則A和B的子串(a1,…,ai)和(b1,…,bj)之間最小編輯距離為查詢提交及結果反饋用戶查詢的提交在客戶端錄制用戶的查詢,將其傳到服務器后進行旋律提取在客戶端就完成旋律提取,只向服務器提交表示旋律的字符序列檢索結果的反饋按照匹配度從高到低的順序反饋,為了提高用戶的感受度,應當設置匹配度閾值基于語義描述的音樂標注及檢索CAL500(ComputerAuditionLab500-Song)[Turnbull07]包含500首不同年代不同風格的西方流行歌曲每首歌曲至少得到了3個人的標注使用備選的詞匯描述歌曲的風格、情感、樂器、音質等備選的描述詞237個,標注完成后,只取了159個至少被使用了8次的描述詞構成CAL500的詞匯表Turnbull借鑒SML進行基于語義描述的音樂標注及檢索將CAL500詞匯表中的每個詞作為一個類通過包含該詞的歌曲的音頻特征學習類模型GMM基于SML的音樂標注及檢索系統元素的描述詞匯表用集合V={w1,…,w|V|}表示,其中包含|V|個描述音樂特征的語義詞,如“喜悅(happy)”、“藍調(blues)”“電吉他(electricguitar)”、“假聲(falsetto)”等。標注過程:尋找一個詞的集合A={a1,…,a|A|},ai∈V,來描述一首新歌sq檢索過程:給定一個查詢詞的集合Q={q1,…,q|Q|},qi∈V,按相關度由高到低的順序排列r個歌曲S={s1,…,sr}歌曲的文本描述:y=(y1,…,yi,…,y|v|),如果語義詞wi與被標注的歌曲有聯系,則0<yi≤1,否則yi=0,yi被稱為語義權重,用來表示語義詞與歌曲之間的聯系強度一首歌的音頻內容:X={x1,…,xi,…,xT},其中xi為從歌曲的一個片段中抽取的特征向量(MFCCs),T取決于歌曲的長度歌曲標注系統詞匯表中的每個語義詞被看作一個類,一首歌將被詞匯表中多個詞賦予標簽標注的根據是歌曲音頻特征與語義詞之間的聯系,這種聯系可以通過音頻特征的詞似然度函數P(X|wi),wi∈V來建模利用樸素Ba

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論