


下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、編輯導語:如今的識別功能越來越強大,比如:指紋識別、人臉識別、虹膜識別、聲紋識別等等,聲紋識別多用于金融行業和刑偵場景,進行聲音匹配;本文作者詳細介紹和分析了聲紋識別中 N: N 聚類算法是如何應用的,我們一起來看一下。筆者前段時間有幸了解到聲紋的概念:聲紋識別,作為生物識別技術的一種,跟臉象、指紋、虹膜等一樣,是每個人獨一無二的特征;在金融行業、刑偵場景應用中,對于說話人身份的鑒別認證,應用頗多。作為產品功能設計,一般有三個類別,分別是1: 1(說話人確認)、 1: N(說話人辨認)、N: N (在聲紋1: N的基礎上,進行大規模、自動化和高效的聲紋匹配,類似聲海中找特定聲音,或者找相似聲音
2、)。本文從聲紋識別的基本概念入手,科普知識;同時分享筆者思考的聲紋識別的 N : N 聚類算法的流程與應用場景,希望可以和大家多多交流。本文將從如下方面為你一一解讀:聲紋 (Voiceprint) ,是用電聲學儀器顯示的攜帶言語信息的聲波頻譜,是由波長、頻率以及強度等百余種特征維度組成的生物特征,具有穩定性、可測量性、唯一性等特點。人類語言的產生是人體語言中樞與發音器官之間一個復雜的生理物理過程,發聲器官 舌、牙齒、喉頭、肺、鼻腔在尺寸和形態方面每個人的差異很大,所以任何兩個人的聲紋圖譜都有差異。每個人的語音聲學特征既有相對穩定性,又有變異性,不是一成不變的;這種變異可來自生理、病理、心理、模
3、擬、偽裝,也與環境干擾有關;盡管如此,由于每個人的發音器官都不盡相同,因此在一般情況下,人們仍能區別不同的人的聲音或判斷是否是同一人的聲音。想要通過聲音識別某個人,或者從聲海中辨認出誰是誰,有兩個核心的問題:就是特征提取和模式匹配了。數據收集階段,提取并提取并選擇對說話人的聲紋具有可分性強、穩定性高等特性的聲學或語言特征;之后選擇合適的模型(具體大家可以自行搜索,這里不多贅述)在進行聲音識別。1: 1 說話人確認是確認說話人身份的方法,針對 “對于同樣的文本內容,有兩段錄音,這兩段錄音到底是不是出自一人之口 ”這樣的問題,也就是 “兩句話到底是不是一個人說 “的問題。該類場景相對簡單,主要應用
4、于用戶的注冊和驗證,以及APP 內的聲紋核身。1: N 說話人辨認是辨認說話人身份的方法,針對 “對于一段語音,需要迅速在樣本庫中進行搜尋比對,以確認這段語音與樣本庫中哪段語音相似度最高 ”,也就是說 “給定的一段語音屬于樣本庫中誰說的” 的問題。該類場景比較常見,主要應用于黑名單用戶進線檢測、提高安防能力等。在聲紋 1: N 的基礎上,進行大規模、自動化和高效的聲紋匹配。舉個例子,如果吉尼斯舉行一個比賽, 5萬個人都錄制一段文字內容相同的語音;作為吉尼斯的審核方,如果想要快速鑒別這5 萬個數據有沒有造假、或者重復(比如將一段語音復制無數次,冒充數據);那么雇傭業務員一條一條語音聽,是有點不科
5、學的,語音聽多了也會混亂,而且很低效。那么有什么好的辦法呢?那就是N : N 說話人聚類,下文會詳細介紹如何解決此類問題。對于千億級別的無標簽錄音文件,如何做有效的處理?舉個例子,假如說你有很多的語音片段(語音的文本內容是相同的),這些語音片段分別歸屬于甲乙丙丁等人;僅憑人耳辨識是無法分辨出哪些語音片段屬于甲,哪些語音片段屬于乙。通過 N : N 聚類的算法,進行聲紋的相似度檢測,將屬于同一個人說話的語音片段不斷進行合并歸類;最后屬于甲說話的語音片段全部被歸為一類,屬于乙說話的語音片段全部被歸為一類;以此類推,類內語音的相似度極高,類間語音的相似度較低,達到將這些語音片段分人整理的目的。簡單介
6、紹一下聚類分析:聚類分析是根據在數據中發現的描述對象及其關系的信息,將數據對象分組。目的是 組內的對象相互之間是相似的(相關的),而不同組中的對象是不同的(不相關的);組內相似性越大,組間差距越大,說明聚類效果越好。聚類效果的好壞依賴于兩個因素:目前主流的說話人聚類算法是在說話人分割的基礎上,基于貝葉斯信息判據,采用凝聚分層聚類算法,直接對說話人分割后的語音段進行判決,將屬于同一個說話人的語音段合并為一類。其基本思想是從每個語片段中提取特征參數,例如梅爾倒譜參數,計算每兩個語音段之間特征參數的相似度,并利用 BIC 判斷相似度最高的兩個語音段是否合并為同一類。對任意兩段語音都進行上述判決,直到
7、所有的語音段不再合并。 摘自 “說話人聚類的初始類生成方法 ”聚類 &聲紋識別的主要場景:在跨渠道、跨場景收集語音同時建立聲紋庫的時候;由于各場景應用的客戶賬號或許不同,說話人在不同場景中分別注冊過聲紋,難以篩除重復注冊語音,建立統一聲紋庫。我們如何快速的去篩除屬于某一個人在不同情況下錄制的多條錄音文件?也就是如何保證最終留下的錄音文件(聲紋庫)是唯一的?每一個人只對應一條音頻,這就要用到聚類的算法;利用聲紋識別 N : N說話人聚類,對所有收集到的語音進行語音相似度檢測,將同一說話人在不同場景中的多次錄制的語音篩選出來;并只保留其中一條,從而保證了聲紋庫的獨特性,節省了大量的人力成本、資源成
8、本。對于目前的場景,我們選擇凝聚層次聚類算法,在這種場景下,我們是要篩除重復人說話;那么我們可以將每一個錄音文件都當作一個獨立的數據點,看最后有凝聚出多少個獨立的數據簇,此時可以理解為類內都是同一個人在說話。1)我們首先將每個數據點(每一條錄音文件)視為一個單一的類,即如果我們的數據集中有X 個數據點,那么我們就有X 個類;然后,我們選擇一個測量兩個類之間距離的距離度量標準;作為例子,我們將用 average linkage它將兩個類之間的距離定義為第一個類中的數據點與第二個類中的數據點之間的平均距離(這個距離度量標準可以選擇其他的)。2)在每次迭代中,我們將兩個類合并成一個;這兩個要合并的類
9、應具有最小的average linkage即根據我們選擇的距離度量標準,這兩個類之間的距離最 小;因此是最相似的,應該合并在一起。3)重復步驟2 直到我們到達樹根,即我們只有一個包含所有數據點的類。這樣我們只需要選擇何時停止合并類,即何時停止構建樹,來選擇最終需要多少個類(摘自知乎)。按照實際的場景,如果我們最終要得到 1000個不重復的錄音文件,為了防止過度合并,定義的退出條件是最后想要得到的錄音文件數目。處理的流程圖聚類模擬圖攻擊者錄制目標說話人的語音進行播放,以目標人身份試圖通過聲紋識別系統的認證。策略:基于隨機內容聲紋的檢測技術,利用隨機數字的不確定性,用戶在規定的時間內(5-10S)需要念出指定的隨機內容,如果超時,則隨機內容更 新;因為對于錄音重放的內容是固定的,很不靈活,所以比較
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 建設工程施工索賠研究
- 領導就職上任表態發言稿(4篇)
- 商業用房租房合同(4篇)
- 2025年廚師工作總結范文(16篇)
- 2025工程技術員年度工作總結(15篇)
- 八年級演講文稿(18篇)
- 清潔培訓課件
- 銷售月計劃書(34篇)
- 企業學員培訓心得體會感悟(18篇)
- 初中物理人教版八年級下冊第十二章 簡單機械綜合與測試教案
- 廢棄物生命周期評估與管理
- 滬教版小學六年級數學應用題150道及答案
- 2024年全國執業獸醫考試真題及答案解析
- 2024年貴州省黔南州中考文科綜合試卷(含答案解析)
- CJT 216-2013 給水排水用軟密封閘閥
- CJ-T250-2018建筑排水用高密度聚乙烯(HDPE)管材及管件
- 山東省濟寧市泗水縣2023-2024學年五年級下學期期中考試語文試題
- 《民宿管家》課件-民宿管家之預訂接待
- MOOC 軟件質量保證-西安交通大學 中國大學慕課答案
- 24春國家開放大學《農業推廣》形考任務1-5參考答案
- 新教科版五下科學1.5《當環境改變了》教學設計
評論
0/150
提交評論