




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
李正興/騰訊高級工程師DataFunSummit#2024背景介紹01、王者榮耀小妲己“游戲知識問答”03、天涯明月刀『絕智阿暖』智能NPC02、和平第五人的『AI語音助手』背景-產(chǎn)品展示AudioDecoderTTS:更自然、韻律豐富、更實時AudioDecoder↑TextEncoderAudioEncoder?采用LM方案TextEncoderAudioEncoder個喜歡我在你耳邊說話的感覺嗎?↑?個喜歡我在你耳邊說話的感覺嗎?↑?通過加速優(yōu)化,實時率~0.085~~你在開什么玩笑?我才不會上當模型結(jié)構(gòu)選型與分析基于語言模型的新方案傳統(tǒng)方案基于語言模型的新方案輸入文本9…聲學(xué)模型9…聲學(xué)模型9…9…………9…3………9…3NARModel9…聲碼器9…聲碼器……3……3…面臨的挑戰(zhàn):2.實時率問題模型推理加速方案是否能將NLP領(lǐng)域的LLM推理加速方法應(yīng)用到語音合成大模型上??flashattention?pageattention?投機采樣?flashdecode?…….LLM中的kvcache:當attentionmask使得attention的計算滿足以下條件時,就能使用kvcache?attentionoutput的第n行只與第n個q相關(guān)?第1~n個token的attention的計算包含第1~n-1個token的attention計算?每次attention的計算都用前面k和v語音ar模型中attentionmask與attention計算滿足kvcache的使用生成第n個tokenattention_maskMask(Q*K)attention_maskattention_maskMask(Q*K)推理加速方案-GQA對于prefill階段來說是典型的計算受限場景,計算的瓶頸占據(jù)主導(dǎo)。而到了decode階段,就是典型的訪存受限場景,訪存的瓶頸占據(jù)主導(dǎo)推理加速方案-GQA相比kvcacheint8/fp8等量化方式,選擇GQA壓縮率更可控,可以在保證效果的同時,選擇更少的headnum將headnum從16減少到4,推理耗時降低20%推理加速方案-BPE有了kvcache后,語音合成模型中AR模型也分為prefill階段和decode階段,合成10秒的音頻需要AR模型生成500個token如何減少token生成的數(shù)量?推理加速方案-BPE在NLP中,采用類似BPE子詞算法進行分詞防止OOV問題BPE首先將詞分成單個字符,然后依次用另一個字符替換頻率最高的一對字符,直到循環(huán)次數(shù)結(jié)束推理加速方案-BPE在語音合成大模型中,將BPE算法應(yīng)用在推理加速上,一次AR模型decode出一個BPE的code,對應(yīng)多個audiotoken為了能直接使用NLPBPE,將audiotoken先映射到唯一的unicode上,每一個字符對應(yīng)一個audiocode。10s音頻需生成token數(shù)從500個token下降到約170個token在語音合成大模型中batch的兩種方法方案一:方案二:在語音合成大模型中batch的兩種方法訓(xùn)練使用方案一:優(yōu)點:在類似emb的算子需要分別對text和audio特征做處理時更簡單缺點:推理的decode階段attention計算需要每次傳入paddingattentionmask,在推理框架中比較復(fù)雜優(yōu)點:attention推理計算,不需要自定義paddingattentionmask,可無縫使用LLM推理框架缺點:在類似emb的算子需要分別對text和audio特征做處理時更復(fù)雜樸素批處理:連續(xù)性批處理:結(jié)合騰訊Trpc微服務(wù)框架,在語音合成大模型中實踐continuousbatching推理語音合成大模型無壓力的實時率從2.09優(yōu)化到0.11,吞吐可達到1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年西安城市建設(shè)職業(yè)學(xué)院單招職業(yè)傾向性測試題庫必考題
- 公司向監(jiān)事人借錢合同樣本
- 2025年西安外事學(xué)院單招職業(yè)技能考試題庫完整
- 2025年貴州工業(yè)職業(yè)技術(shù)學(xué)院單招職業(yè)傾向性考試題庫1套
- 2025年西安明德理工學(xué)院單招職業(yè)技能考試題庫新版
- 2025年西安航空職業(yè)技術(shù)學(xué)院單招職業(yè)傾向性考試題庫匯編
- 福建事業(yè)單位考試職業(yè)形象塑造試題及答案
- 2025至2030年抑汗香水項目投資價值分析報告
- 2024年園藝師考試病蟲害防治試題及答案
- 個人消貸款合同樣本
- 《中匯稅務(wù)師事務(wù)所》課件
- 2025屆東北三省三校高三第二次聯(lián)考語文試卷含解析
- 專題03辨析題解題技巧與方法(課件)道德與法治中考復(fù)習(xí)題型解題技巧與方法
- GB/T 44113-2024用戶側(cè)電化學(xué)儲能系統(tǒng)并網(wǎng)管理規(guī)范
- 1248國開電大本科《公共部門人力資源管理》自檢自測試題及答案
- 【教案】二項式定理教學(xué)設(shè)計-2024-2025學(xué)年高二下學(xué)期數(shù)學(xué)人教A版(2019)選擇性必修第三冊
- 國開2024年秋《大數(shù)據(jù)技術(shù)概論》形考作業(yè)1-4答案
- 2024年山東春季高考語文試題答案詳細解析
- 2024年江蘇省揚州市邗江區(qū)中考一模物理試題(解析版)
- 內(nèi)能的利用教學(xué)設(shè)計(復(fù)習(xí)) 人教版
- 2024中考化學(xué)試題研究專題《實驗室廢液成分的探究及處理》 課件
評論
0/150
提交評論