2023智能語(yǔ)音技術(shù)白皮書_第1頁(yè)
2023智能語(yǔ)音技術(shù)白皮書_第2頁(yè)
2023智能語(yǔ)音技術(shù)白皮書_第3頁(yè)
2023智能語(yǔ)音技術(shù)白皮書_第4頁(yè)
2023智能語(yǔ)音技術(shù)白皮書_第5頁(yè)
已閱讀5頁(yè),還剩88頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

(2023版 基于AIChip的聲紋喚醒解決方 過(guò)IP的聲紋和喚50年代。受限于計(jì)算機(jī)能力和信號(hào)處理技術(shù)水平,早期置產(chǎn)生的在頻譜上具有共振峰特性的不同元音。1952年貝爾實(shí)驗(yàn)室研發(fā)出第一個(gè)特定人數(shù)字識(shí)90%以上,對(duì)陌生人則偏低。1962IBMShoebox16個(gè)英文單10個(gè)數(shù)字進(jìn)行加減運(yùn)算的語(yǔ)音指令。1972年,CMU發(fā)布了針對(duì)孤立詞語(yǔ)以及簡(jiǎn)單Harpy1011個(gè)單詞,使大詞匯量、孤立詞識(shí)別取得突破(HMMHidden特定人、大詞匯量、連續(xù)語(yǔ)音識(shí)別系統(tǒng)SPHINX問(wèn)世,可支持近1000個(gè)詞匯。進(jìn)入90年代,漸提升,實(shí)現(xiàn)了超過(guò)上萬(wàn)詞匯量的大詞表連續(xù)語(yǔ)音識(shí)別系統(tǒng)(LVCSRLargeVocabularyRecognition的特征表達(dá)能力和建模能力。2009年DNN成功取代M對(duì)語(yǔ)音信號(hào)進(jìn)行特征變換和狀態(tài)預(yù)DNN-HM30%(CNNConvoluionalNeurlNeok)被用來(lái)提取更精細(xì)和更魯邦的特征表示,長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSM,Long-shortTeMeoy2017年微軟公布Swichboad任務(wù)錯(cuò)誤率達(dá)到5.1%除在語(yǔ)音識(shí)別領(lǐng)域取得成功外,也為其他語(yǔ)音處理技術(shù)帶來(lái)了突破,如聲紋識(shí)別、語(yǔ)種識(shí)別、音頻分類等都可以利用深度神經(jīng)網(wǎng)絡(luò)的特征表達(dá)能力將不定長(zhǎng)的幀級(jí)輸入轉(zhuǎn)為固定維度的(DeepEmbeddingDeepEmbedding框HM-Hybrid框架已經(jīng)在很多語(yǔ)音產(chǎn)品和行業(yè)中落地商用。容納到一個(gè)整體中,與傳統(tǒng)Hybrid框架相比簡(jiǎn)化了建模過(guò)程。目前主流的端到端模型主要包括CT(ConnectionistClassificationLA(Listen,AttendandSpell)等。單從語(yǔ)音識(shí)別的性能來(lái)看,End-to-endASRHybrid框架,的歷史可以追溯到17世紀(jì)法國(guó)人研發(fā)的機(jī)械式說(shuō)話裝置。在19世紀(jì)開始研究電子語(yǔ)音合成技成技術(shù)的發(fā)展。1980E.MoulinesF.CharpentierPSOLA(PitchSynchronousOverlapAdd)[3]算法,使得合成語(yǔ)音更加自然。世紀(jì)90年代,語(yǔ)音合成商用系統(tǒng)還是以單元挑選與波形拼接的方法為主,基于大語(yǔ)料庫(kù),從預(yù)先錄制和標(biāo)注好的音頻庫(kù)中選擇合適的語(yǔ)音片段進(jìn)行拼接,得到最終合成的聲音[4]。21世紀(jì),隨著深度學(xué)習(xí)的飛速發(fā)展,基于統(tǒng)計(jì)建模的語(yǔ)音合成技術(shù)逐漸被深度神經(jīng)網(wǎng)端信號(hào)處理技術(shù)也是非常重要的部分。前端信號(hào)處理就是利用數(shù)字信號(hào)處理技術(shù)對(duì)語(yǔ)音信號(hào)進(jìn)的算法也被國(guó)際標(biāo)準(zhǔn)所采用,例如國(guó)際電信聯(lián)盟電信標(biāo)準(zhǔn)分局(InternationalTelecommunicationUnion,ITU-T)G.729B、第三代合作伙伴計(jì)劃(TheThirdGenerationPartnerProject,3GPP)的自可夫模型(HiddenMarkovModel,HMM)的方法。近些年來(lái),神經(jīng)網(wǎng)絡(luò)在語(yǔ)音活動(dòng)檢測(cè)發(fā)現(xiàn)得到由于早期電話應(yīng)用使用低延時(shí)的模擬技術(shù)并且通訊距離普遍較短,回聲消除問(wèn)題在當(dāng)時(shí)并不明顯。20世紀(jì)中葉以后,由于衛(wèi)星系統(tǒng)發(fā)展,需要解決遇到的回聲消除問(wèn)題。一種方法是使IP電話的發(fā)展,傳輸時(shí)延有可能超過(guò)100--300ms20世紀(jì)80年代以來(lái),國(guó)際電聯(lián)IU先后制定了消除線路回聲的G165(EchoCanceler),消除音頻終端回聲的G167(AcousicEchoCaceler)及消除數(shù)字網(wǎng)絡(luò)回波的G168(igialNeokEchoCancller)2070年代。1978年,LimOppenheim提出了基于維納濾波的方法。1979年,Boll提出了譜減法來(lái)抑制噪聲。1980年,MaulayMalpass提出了軟判決噪聲抑制的方法。1984年,EphraimMalahMMSE短時(shí)譜幅度估計(jì)的方法。1987波束形成最基本的方法是延遲求和技術(shù)。1969年,Capon提出了最小方差無(wú)失真響應(yīng)(MinimumVarianceDistortionlessResponse,MVDR)波束形成算法,是目前應(yīng)用廣泛的自適應(yīng)波束形成方法之一。1972年,F(xiàn)rost提出了線性約束最小方差(LinearlyConstrainedMinimumVariance,LCMV)MVDR的擴(kuò)展。1982Griffiths提出了廣義旁瓣相消1976Knapp何結(jié)構(gòu)計(jì)算聲源方位。1979Schmidt等人提出了多重信號(hào)分類方法,對(duì)方位的估計(jì)具有很高波束形成方法也可用于去混響,但目前常用的方法主要是基于逆濾波的方法。2010年2-12013年聯(lián)想發(fā)布并開始運(yùn)營(yíng)支持引擎自由插拔的第一代自適應(yīng)語(yǔ)音平臺(tái),通過(guò)平臺(tái)輸出語(yǔ)2014One-shotTouchless”免觸語(yǔ)音撥號(hào)和接聽功能的中國(guó)公司。2015年聯(lián)想手機(jī)語(yǔ)音助手樂(lè)語(yǔ)音入駐軟件商DNN-HMM混合引擎上。2017年開始啟動(dòng)第二代語(yǔ)音平臺(tái),基于聯(lián)想自研核心技術(shù)輸出語(yǔ)音識(shí)別、語(yǔ)音合成等語(yǔ)音平臺(tái)已全線賦能聯(lián)想的智能設(shè)備,包括PC、平板、手機(jī)和IOT設(shè)備等。總體而言,聯(lián)想智能語(yǔ)音技術(shù)研發(fā)布局如圖2-2所示,包括核心技術(shù)引擎層、平臺(tái)層和應(yīng)2018年三方機(jī)構(gòu)報(bào)告顯示,聯(lián)想在語(yǔ)音&自然語(yǔ)言處理領(lǐng)域?qū)@麛?shù)量世界排名第19名、中國(guó)排名第3名[5];2019年國(guó)家工業(yè)信息安全發(fā)展研究中心“人工智能中國(guó)專利技術(shù)分析報(bào)告”顯示,聯(lián)想語(yǔ)音識(shí)別領(lǐng)域?qū)@暾?qǐng)量中國(guó)排名第6名。2-2按語(yǔ)音的應(yīng)用場(chǎng)景可以將智能語(yǔ)音技術(shù)分為人機(jī)交互和人人交流兩大類。在人機(jī)交互方面3-1圖3-2描述了語(yǔ)音前端信號(hào)處理技術(shù)所要解決的幾個(gè)關(guān)鍵問(wèn)題:回聲、噪音、混響和干擾3-2VAD的基本流程如圖3-33-3VAD多為基于門限的方法,這種方法簡(jiǎn)單快速,在信噪比較高時(shí)能夠獲得較好的效LSTMVAD方案是一套融合方案,適配不同的需求和應(yīng)用場(chǎng)景。對(duì)于計(jì)算資源有有高要求的場(chǎng)景,我們采用了基于U-Net的網(wǎng)絡(luò)結(jié)構(gòu),特征采用頻譜,同時(shí)在訓(xùn)練階段輔以SpecAugment[6]2021InterspeechFearlessStepsChallengePhaseIII挑戰(zhàn)賽中SAD賽道獲得了第二名[7]。AEC的基本思想是聯(lián)合自適應(yīng)濾波處理和回聲后處理,基本原理如圖3-43-4圖3-5AECGCC-PHAT(GeneralizedCrossCorrelationPhaseTransformation)方法計(jì)算時(shí)用基于維納濾波的方案,基本流程如圖3-6所示:3-6其訓(xùn)練和降噪的基本流程如圖3-73-7AI目前聯(lián)想語(yǔ)音降噪模塊主要基于DCCRN[8][的模型結(jié)構(gòu)進(jìn)行優(yōu)化,該模型對(duì)眾多非平穩(wěn)噪波束形成的基本原理如圖3-83-8CGMM估計(jì)得到帶噪語(yǔ)音中的時(shí)頻掩蔽,提高了對(duì)移動(dòng)聲源的跟蹤能力和降噪能力。圖3-9CGMM-MVDR的基本思想是使用CGMM分別估計(jì)帶噪語(yǔ)音中的語(yǔ)音和噪聲的時(shí)頻掩蔽,征值對(duì)應(yīng)的特征向量作為導(dǎo)向矢量的估計(jì),最后應(yīng)用MVDR實(shí)現(xiàn)降噪。該方案不受麥克風(fēng)陣列這種方法的基本思想是對(duì)麥克風(fēng)陣列的接收信號(hào)在所有的觀測(cè)方位進(jìn)行延遲求和的波束形SRP(HAThaseTransom)被用來(lái)進(jìn)行頻域幅值的歸一化操作,僅保留相位信息,從而弱化了無(wú)關(guān)峰值,對(duì)噪聲和混響的靈敏度降低,進(jìn)一步提高了魯棒性和定位的精準(zhǔn)度。SRP的設(shè)計(jì)思路不同,MUSIC聲源定位算法從矩陣分解的角度,將接收信號(hào)看成干凈語(yǔ)信號(hào)子空間和噪聲子空間。MUSIC算法使用噪聲子空間和各方向的導(dǎo)向矢量構(gòu)建一個(gè)空間譜,SRP-PHAT3m遠(yuǎn)場(chǎng)拾音條件下定位準(zhǔn)確度的平均誤差在5度以內(nèi),該方案對(duì)單一聲源具有更好的通用性和更低的計(jì)算的信號(hào)的線性預(yù)測(cè)實(shí)現(xiàn)去混響。考慮到實(shí)際語(yǔ)音的特性,有研究提出了加權(quán)預(yù)測(cè)誤差Gaussian代估計(jì),進(jìn)一步提高了WPE的速度和性能[11]。WPE的方法,通過(guò)對(duì)設(shè)備在各種實(shí)際環(huán)境下的進(jìn)行性能調(diào)校,實(shí)現(xiàn)了更加穩(wěn)定、魯棒的去混響效果,實(shí)現(xiàn)流程如圖3-10所示:3-10WPE方法對(duì)語(yǔ)音失真小,在混響環(huán)境下能夠有效提高ASR系統(tǒng)的識(shí)別準(zhǔn)確率。ICA通過(guò)利用信號(hào)的統(tǒng)計(jì)獨(dú)立性實(shí)現(xiàn)各聲源的分離,例如可以對(duì)混合信號(hào)做變換,使其非高斯性因此常常會(huì)在頻域上各頻點(diǎn)應(yīng)用ICA分離。考慮到分離后的結(jié)果會(huì)存在不同時(shí)間分離得到的各聲源的成分排列順序不一致的問(wèn)題,有研究對(duì)ICA進(jìn)行了擴(kuò)展,提出獨(dú)立向量分析(IVA,IndependentVectorAnalysis)方法,將所有頻率成分建模為隨機(jī)向量變量并同時(shí)進(jìn)行處理,避免了排列問(wèn)題。通過(guò)引入輔助函數(shù),IVA可以擴(kuò)展為AuxIVA方法,能夠進(jìn)一步提高收斂速度和IVAOverIVAClustering(PIT,PermutationInvariantTraining)來(lái)解決這一問(wèn)題。有研究提出了TasNet,采用編碼器-解碼器結(jié)構(gòu)替換了頻域方法中的短時(shí)傅里葉變換,避免了幅TasNetConv-TasNet,CNNLSTMtransformer應(yīng)求實(shí)現(xiàn)的目標(biāo)人語(yǔ)音分離技術(shù)。基本流程如圖3-11所示:3-11網(wǎng)絡(luò)結(jié)構(gòu)基于DCCRN,語(yǔ)音經(jīng)過(guò)編碼層后得到bottleneck特征,目標(biāo)人參考語(yǔ)音經(jīng)過(guò)相同LSTM層和解碼層,Spotting圖3-12圖3-13據(jù)訓(xùn)練好的系統(tǒng)計(jì)算采集的音頻流內(nèi)喚醒詞存在的概率,通過(guò)與設(shè)定好的閾值進(jìn)行比較來(lái)決定3-13除了常用的小尺寸喚醒詞識(shí)別系統(tǒng)外,基于樣例的口語(yǔ)詞檢測(cè)(QbE-STDQuery-by-ExampleSpokenTermDetection)[13][14]也被廣泛使用。通常會(huì)先使用大量非喚醒[15Stteuce)詞系統(tǒng)都是基于語(yǔ)音識(shí)別系統(tǒng)進(jìn)行計(jì)算的,所以整體模型尺寸和計(jì)算復(fù)雜度都要高于小尺寸喚圖3-143-14如圖3-15所示。3-15醒盡可能正確判斷喚醒”的原則,具體選擇如圖3-16所示:3-16100為文本序列,即給定輸入序列????1,,????},尋找詞序列??={??1,,????使得概率??(??|??)

Model??(??|??)為混合語(yǔ)音識(shí)別系統(tǒng)。3-17展示了混合語(yǔ)音識(shí)別系統(tǒng)的識(shí)別流程,下面將具體介紹識(shí)別系統(tǒng)3-17模,常用的聲學(xué)模型建模單元主要有詞、子詞、音素,其中音素是構(gòu)成音節(jié)的最小單位或最小(DNN3-18DNN-HMM圖3-18DNN-HMMHMM模型用來(lái)描述語(yǔ)音HMM的某個(gè)狀態(tài)的后驗(yàn)概率。DNN中可以通過(guò)更換或者組合不同的神 拆解成其中每個(gè)詞的概率之積。設(shè)W是由

|w,w,w...wn-gramn-gram模型中,每個(gè)詞的概率分布只依賴于前面n-1個(gè)詞,現(xiàn)在用得比較多的有tri-gram,four-gram,five-gram。聲學(xué)模型和語(yǔ)言模型都訓(xùn)練完成之后,通過(guò)有限加權(quán)狀態(tài)轉(zhuǎn)化機(jī)(WFST)建立一個(gè)HMM建過(guò)程,近幾年發(fā)展迅速并逐漸成為主流。其中,最主要的三種端到端模型結(jié)構(gòu)分別是(ConnectionistTemporalClassification)模型、Transducer模型和Attention-basedEncoder-Decoder模型。CTCCTC是一個(gè)計(jì)算輸入語(yǔ)音信號(hào)和輸出字符序列之間對(duì)齊信息的目標(biāo)函數(shù)。對(duì)于語(yǔ)音識(shí)別模無(wú)說(shuō)話人語(yǔ)音的片段)和連續(xù)相同字符之間的轉(zhuǎn)移關(guān)系,CTCblank標(biāo)簽??,這樣便圖3-19CTCTransducerCTC模型存在的問(wèn)題,主要包括兩方面的改進(jìn):1)引入了一個(gè)Predictor網(wǎng)絡(luò)和一個(gè)Joint網(wǎng)絡(luò)來(lái)建模輸出序列之前的轉(zhuǎn)移關(guān)系;2)允許每個(gè)時(shí)間步輸出多個(gè)單元,使得模型能夠處理輸出序列長(zhǎng)度大于輸入序列的情況。圖3-20展示了一個(gè)Transducer模型:3-20TransducerTransducerencoderCTCencoder類似,將輸入的語(yǔ)音信號(hào)編碼為一個(gè)時(shí)Predictor網(wǎng)絡(luò)是一個(gè)自回歸的模型,字符生成用于預(yù)測(cè)下一個(gè)字符的特征。Joint網(wǎng)絡(luò)通常由一個(gè)簡(jiǎn)單的全連接網(wǎng)絡(luò)來(lái)實(shí)現(xiàn),它將encoder和predictor網(wǎng)絡(luò)輸出的特征向量進(jìn)行融合,并輸出一個(gè)融合后的特征向量,該特征向詞表單元上的概率分布。TransducerCTC無(wú)法處理以分為和LS模型是一種基于注意力機(jī)制的Encoder-Decodr(AED,Atenion-basedEncoder-Decoder應(yīng)用于諸多序列到序列的預(yù)測(cè)任務(wù)。語(yǔ)音識(shí)別任務(wù)是一個(gè)從輸入語(yǔ)音特征序列到輸出字符序列AED圖3-21展示了一個(gè)AED3-21AEDEncoder特征向量能夠包含輸入信號(hào)的全局信息,并作為輸入傳給Decoder網(wǎng)絡(luò)。Decoder負(fù)責(zé)將EncoderDecoder1Decoder2根據(jù)該隱式狀態(tài)在Encoder隱式特征DecoderSomax函數(shù)計(jì)算得到標(biāo)簽上的概率分布。通過(guò)引入注意力機(jī)制解決了編碼器無(wú)法充分保留長(zhǎng)序列上下文信息的問(wèn)題,模型的優(yōu)化目標(biāo)使得注意力機(jī)制為當(dāng)前解碼最相關(guān)的信息分配更高的注意力。AED模型的解碼是一個(gè)自回歸的解碼過(guò)程,每步生成的一個(gè)標(biāo)簽,并將前一個(gè)生成的標(biāo)簽字符(通常表示為<eos>)Sequence-to-sequence模型相比,AED模型在語(yǔ)音圖3-22TB系統(tǒng)有效解決了諸多應(yīng)用場(chǎng)景中語(yǔ)音出現(xiàn)的code-switching3-233-23RNNTransducer解碼器,RNNTransducer可以實(shí)時(shí)地輸出識(shí)別結(jié)果;另一條鏈路在整條語(yǔ)音解AED解碼器,AEDAED的結(jié)果來(lái)進(jìn)一步對(duì)RNNT的輸出進(jìn)行重打分,這就是two-pass的鏈路。體積小,效率高,便于部署。RNN-T較為輕量,可以不需要語(yǔ)言模型直接識(shí)別出結(jié)果,同時(shí)通過(guò)AED的重打分也可以進(jìn)一步對(duì)RNNT的結(jié)果進(jìn)行糾正,從而獲得準(zhǔn)確率更高Synthesis圖3-24塊、G2P(Grapheme-to-Phoneme)模塊和韻律預(yù)測(cè)模塊。轉(zhuǎn)成發(fā)音文字。例如:輸入“溫度15-35℃”,輸出“溫度十五到三十五攝氏度”。它是文本前端的G2P聲學(xué)模型將語(yǔ)言學(xué)特征序列轉(zhuǎn)換為聲學(xué)頻譜特征。語(yǔ)言學(xué)特征序列通常為包含韻律特征的編碼器、對(duì)齊模塊和解碼器。3-25如3-25所示,語(yǔ)言學(xué)特征序列輸入到編碼器得到隱狀態(tài)序列,經(jīng)由對(duì)齊模塊后輸入到解CNN,、RNN和TransformerDeepSpeech系列[20]、Tacotron系列[21]、Fastspeech[22]Seq2Seq架構(gòu)中會(huì)使用注意力機(jī)制(Attention)來(lái)進(jìn)行對(duì)Tacotron系列的模型但由于整個(gè)模型自回歸的結(jié)構(gòu),導(dǎo)致模型推理速度較慢。另外由Fastspeech提出了一種非自回歸的模型結(jié)構(gòu),由時(shí)長(zhǎng)預(yù)測(cè)模型來(lái)學(xué)習(xí)音素序列與聲學(xué)特是使用外部對(duì)齊:Fastspeech從預(yù)訓(xùn)練的基于自回歸注意力的TTS模型中提取對(duì)齊信息;Fastspeech2使用一個(gè)強(qiáng)制對(duì)齊工具來(lái)獲得對(duì)齊信息。另一種是使用內(nèi)部對(duì)齊:JDI-T個(gè)自回歸模型聯(lián)合訓(xùn)練的方式來(lái)獲取對(duì)齊信息;GlowTTS使用monotonicalignmentsearch來(lái)(GANGenerativeNetworks等。目前學(xué)術(shù)界和工業(yè)界大都采用基于GAN的模型,其中HiFiGAN是目前較為常用的模型。圖3-26Transformer的合成器(Synthesizer,它基于類似FastspeechFeedForwardTransformer(FFT)結(jié)構(gòu)。合成器由五部分組成:PhoneEmbedding,LowerFFTBlock,LengthRegulatorHigherFFTBlockLinearLayer。受Fastspeech系列的啟發(fā),模型也采用時(shí)長(zhǎng)度。為了獲得持續(xù)時(shí)間的GroundTruth(AlignmentGeneratorCTCCTC的識(shí)別模塊器訓(xùn)練的CTC損失和時(shí)長(zhǎng)預(yù)測(cè)模型的持續(xù)時(shí)間損失。對(duì)齊生成器僅用于訓(xùn)練階段:使用前向后向算法來(lái)計(jì)算Richinormaion)的識(shí)別技術(shù)稱為副語(yǔ)言語(yǔ)音屬性分析技術(shù),一般情況下可以采用統(tǒng)一的算法框架來(lái)解決通用問(wèn)題。下面就以聲紋識(shí)別和音頻分類為典型技術(shù)進(jìn)行說(shuō)明。按照應(yīng)用場(chǎng)景不同,聲紋識(shí)別可以分為說(shuō)話人確認(rèn)(SpeakerVerification)(SpeakerIdentification)兩大任務(wù)。說(shuō)話人確認(rèn)用于判斷待測(cè)語(yǔ)音與已有的注冊(cè)語(yǔ)音是否來(lái)自1:11:N包括特征提取、建模和后端分類等幾個(gè)步驟,較具有代表性的是基于高斯混合模型(GMM,Gaussianmixturemodel)i-vector[25]技術(shù)。傳統(tǒng)方法由于是幾個(gè)步驟的串聯(lián),各個(gè)步驟的優(yōu)基于深度學(xué)習(xí)的聲紋識(shí)別技術(shù)通過(guò)深度神經(jīng)網(wǎng)絡(luò)和大量的標(biāo)注數(shù)據(jù)使系統(tǒng)自主學(xué)習(xí)適合于分類i-vecor工作有i-vector/UBM-GMM/PLDA如圖3-27所示,包括語(yǔ)音特征提取、通用背景模型(UBM,UniversalBackgroundModel)建模、最大后驗(yàn)自適應(yīng)(MAPAdaptation,MaximumAPosteriorAdaptation)[28]、因子分析/i-vector建模和概率線性判別分析(PLDA,ProbabilisticLinearDiscriminantAnalysis)[29]等幾個(gè)GMM生成MAP自適應(yīng)技術(shù)對(duì)通i-vectori-vectorPLDA模型,3-27i-vector/UBM-GMM/PLDA圖延神經(jīng)網(wǎng)絡(luò)(TDNN,TimeDelayeuralNeok)對(duì)輸入的語(yǔ)音特征進(jìn)行說(shuō)話人信息的抽取;然后使用時(shí)間維度池化層對(duì)抽取的說(shuō)話人特征在時(shí)間維度上求取均值和標(biāo)準(zhǔn)差,從而將不定長(zhǎng)的特征頻譜轉(zhuǎn)化為定長(zhǎng)的句子級(jí)別的特征向量;最后使用前向神經(jīng)網(wǎng)絡(luò)將句子特征進(jìn)一步轉(zhuǎn)化為說(shuō)話人的后驗(yàn)概率,得到說(shuō)話人的分類結(jié)果。前向神經(jīng)網(wǎng)絡(luò)第一層的輸出結(jié)果即為x-vecor相比于i-vecor,x-vecor擁有更強(qiáng)的表征說(shuō)話人身份特征的能力。3-28x-vectordeep-ResNet-vector也是基于深度神經(jīng)網(wǎng)絡(luò)的有監(jiān)督聲紋模型。如圖3-29所示,與x-TDNN。由于ResNet輸出為三維的特征圖,在句子級(jí)別特征提取時(shí),可以將時(shí)間維度和特征維類結(jié)果。前向神經(jīng)網(wǎng)絡(luò)的第一層輸出即為deep-ResNet-vector。3-29deep-ResNet-vector目前聯(lián)想在聲紋識(shí)別上的研究主要以說(shuō)話人確認(rèn)為主。隨著深度學(xué)習(xí)的快速發(fā)展,說(shuō)話人難以應(yīng)用于如手機(jī)、電腦等計(jì)算資源有限且要求低延遲的終端設(shè)備。聯(lián)想為PC上的聲紋喚醒AIChip提出了面向輕量級(jí)應(yīng)用的非對(duì)稱“注冊(cè)-確認(rèn)”說(shuō)話人確認(rèn)方案[30],如圖3-30所示。通常情況下,說(shuō)話人確認(rèn)系統(tǒng)均為對(duì)稱式系統(tǒng),即在用戶注冊(cè)階3-30聯(lián)想ECAPA-TDNN[31]ECAPA-TDNN采用減小特征圖大小和可分離卷積等方法得到的輕量級(jí)ECAPA-TDNNLite。在未使用非對(duì)稱式結(jié)構(gòu)訓(xùn)練的情況下,相比于現(xiàn)有的輕量級(jí)說(shuō)話人確認(rèn)網(wǎng)絡(luò),ECAPA-TDNNLite在同等計(jì)算量下取得了更低的等錯(cuò)誤率(EER,EqualErrorRate)和更快的推理速度。在采用非對(duì)稱式的系統(tǒng)結(jié)構(gòu)后,EER得到了進(jìn)一步的降低。這種非對(duì)稱式的系統(tǒng)結(jié)構(gòu)取得了較好IOT3-31基于深度學(xué)習(xí)的音頻分類算法是目前聲音信號(hào)分析與分類的主流方法,模型框架如3-31(Magnitudespectrogramsoftmax映射為不同類別概率構(gòu)成的多維向量,向量長(zhǎng)度和音頻分類數(shù)量相同,AIMasterLetrain框架進(jìn)行集成,支持在x86平臺(tái)上進(jìn)行離線部署和業(yè)務(wù)落地,其開發(fā)流程如圖3-32:3-32練(Trainingfromscratch)CNN實(shí)際應(yīng)用需要;對(duì)于Transformer結(jié)構(gòu)普遍存在的計(jì)算需求大的問(wèn)題,采用了最新的級(jí)聯(lián)式Transformer結(jié)構(gòu),將模型參數(shù)量降低了50%以上。SDKSDKx86服務(wù)器端不同分類類別和不同計(jì)算量的音頻分類需求,而且基于預(yù)訓(xùn)練模型進(jìn)行微調(diào)的訓(xùn)練模式可以結(jié)大大減少了模型訓(xùn)練所需時(shí)間成本,為云端訓(xùn)練與端側(cè)部署相結(jié)合的解決方案提供了良好的范例。圖檢測(cè)(SAD、音頻片段分割(AudioSegmentation、聲紋特征提取(SpeakerEmbeddingExtraction(Clustering3-33Rate(LSTM(DeepResidualNetwork)[34]Similarity分析(PLDA,ProbabilisticLinearDiscriminantAnalysis)等。Clustering和K均值算法(K-means)等。話人日志錯(cuò)誤率,提升系統(tǒng)性能。系統(tǒng)流程圖如3-34所示。在語(yǔ)音活動(dòng)檢測(cè)、相似度估計(jì)以O(shè)SD模塊采用了自研的雙說(shuō)話人TS-VAD3-34語(yǔ)音活動(dòng)檢模塊使用對(duì)數(shù)梅爾譜作為聲學(xué)特征,ResNet34作為前端特征提取器來(lái)得到幀級(jí)別的特征圖,雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(BiLSTM,Bi-directionalLSTM)和全連接層構(gòu)成分類器得到的特征表達(dá),隨后使用全局統(tǒng)計(jì)池化(GSP,GlobalStatisticPooling)層得到句子級(jí)別的特征向TS-VAD模型用于進(jìn)行混疊語(yǔ)音活動(dòng)檢測(cè),模型如3-35所示。系統(tǒng)將雙說(shuō)話人N(??)該雙說(shuō)話人TS-VAD方法對(duì)長(zhǎng)音頻中說(shuō)話人個(gè)數(shù)沒(méi)有限制,并且能夠準(zhǔn)確檢測(cè)到包含任意VoxCelebSpeakerRecognitionChallenge(VoxSRC)2021[36]說(shuō)話人日志賽道取得第一名。3-35TS-VAD如圖3-36:3-36解碼結(jié)果對(duì)齊和發(fā)音特征四個(gè)方面進(jìn)行了改進(jìn)。流程圖如圖3-37:3-37型,我們也稱為Golden模型。單獨(dú)使用Unigram相比,句錯(cuò)誤率下降了40%以上。10%GOP均值和標(biāo)準(zhǔn)差、語(yǔ)價(jià)四個(gè)評(píng)分維度上,對(duì)logisticsregression、SVM、MLPclassification、linearregression和MLPregressionMLPregression4-1聯(lián)想智能語(yǔ)音服務(wù)平臺(tái)架構(gòu)圖如圖4-11在網(wǎng)站語(yǔ)音合成:可將文字信息轉(zhuǎn)化為聲音信息,適用于手機(jī)APP、兒童故事機(jī)、智能機(jī)器SaaS方式為用戶提供個(gè)性化的為應(yīng)用示例,如圖4-2所示:4-25-1PCIOT等設(shè)備上的語(yǔ)音應(yīng)用,包括語(yǔ)音助手和聲紋喚醒AI區(qū)服務(wù)團(tuán)隊(duì)一起打造的聯(lián)想電話語(yǔ)音客服系統(tǒng);最后在商用領(lǐng)域主要是對(duì)智能會(huì)議系統(tǒng)進(jìn)行介紹。部聯(lián)想和MOTO品牌手機(jī)上進(jìn)行預(yù)裝,作為手機(jī)熱門應(yīng)用之一為消費(fèi)者提供智能交互體驗(yàn)。樂(lè)語(yǔ)音架構(gòu)圖如圖5-25-2moto戶指令。2020年在小新平板電腦上樂(lè)語(yǔ)音再度升級(jí),可支持桌面模式和多應(yīng)用同時(shí)工作。作為APP。用戶可以通過(guò)語(yǔ)音助手打電話、發(fā)短信、設(shè)置鬧鐘和日程、free,eyesfree”的交互體驗(yàn)。5-3基于AIChip20219LA2PC打造的專非對(duì)稱“注冊(cè)-確認(rèn)”聲紋識(shí)別框架是針對(duì)AIChipPC聲紋喚醒的流程圖如圖5-4所示,包括注冊(cè)和確認(rèn)兩個(gè)流程。在注冊(cè)階段,用戶在開機(jī)狀態(tài)下通過(guò)SmartEngine的設(shè)置界面進(jìn)行操作,按照提示朗讀注冊(cè)文本,這一部分運(yùn)行在系統(tǒng)CU上,模型推理一次即Chip上,為了實(shí)現(xiàn)最佳用戶體驗(yàn)對(duì)功耗、計(jì)算延時(shí)要求嚴(yán)格,受硬件計(jì)算資源的限制在確認(rèn)階段無(wú)法采用過(guò)于復(fù)雜的模型結(jié)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論