




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
孟令公得物機器學習高級專家主要負責得物算法平臺的相關研發工作。在得物從0到1打造通用大模型訓練和推理平臺。曾就職于騰訊、阿里等多家互聯網大廠。2022年加入得物,專注于大模型相關技術,包括推理加速與各應用場景落地,曾在得物技術公眾號發表過多篇高質量大模型相關文章,比如:利用多L演講主題:大模型推理性能提升實踐大模型推理引擎設計KVCache高效顯存管理Prefill與Decode階段的優化利用多Lora節省成本大模型推理引擎設計模塊模型模塊模型調度器調度器大模型推理引擎設計?業務方在訓練并部署大模型后,需要專用的大模型推理引擎來加速推理過程。當用戶發送請求時,Req會首先傳遞給應用程序;當應用程序會調用大模型的推理引擎來觸發推理邏輯。?大模型推理引擎的核心目標是提升推理速度和吞吐量,并兼容各種?推理引擎的核心模塊主要包括調度器、Prefill、Decode和KVCache管理,這四個部分是性能優化的關鍵。當然,它還包括Token、DeToken、采樣、模型支持、硬件支持(CUDA)等其他邏輯。KVCache高效顯存管理-自回歸推理過程的的的的退出條件:?達到模型預定義的最大長度。KVCache高效顯存管理-Attention計算KVCache高效顯存管理-KVCache與顯存碎片推理引擎人工智能是一項人工智能是一項快速發展的技術硬件支持:GPUCPUXPU?需要為每個請求維護一個KVCache的緩存。KVCache高效顯存管理-KVCache與顯存碎片?KVCache在系統中占比多少?圖片來自論文:EfficientMemoryManagementforLargeLanguageModelServingwithPaged?KVCache的頻繁申請與釋放會帶來什么問題?顯存碎片!就像內存管理一樣,頻繁的申請與釋放不規則的內存,時間長KVCache高效顯存管理-VLLMPagedAttention視頻來自文章:vLLM:Easy,Fast,andCheapLLMServingwithPagedAttentionKVCache高效顯存管理-VLLMPagedAttention?VLLM的PagedAttention是受操作系統虛擬內存和分頁啟發的注意?此外,它支持多序列共享內存,例如在并行采樣時共享提示詞的KV緩存,進一步降低內存開銷并提升性能。圖片來自文章:vLLM:Easy,Fast,andCheapLLMServingwithPagedAttentionKVCache高效顯存管理-VLLMPagedAttentionKVCache高效顯存管理-SGLangRadixAttention共享部分的KVCache能否復圖片來自文章:SGLang:EfficientExe不可共享的模型輸出。?可共享的元素包括少樣本學習示例、自一致性中的問題、多輪對話中的聊KVCache高效顯存管理-SGLangRadixAttention圖片來自V章:SGLang:EfficientE2.第一場聊天開始:用戶發送“你好!”,助手回復新節點附加到樹上。存。6.處理少樣本學習查詢:服務器收到不與現有節點共享請求作為單獨分支插入樹中。以高效管理內存。要的節點以為新請求分配內存。KVCache高效顯存管理-SGLangRadixAttention圖片來自V章:AchievingFasterOpen-SourceLlama3ServingwithSGLangRuntime(vs.TensorRT-LLM,vLLM)大模型推理的關鍵階段Prefill與Decode的的的的退出條件:?達到模型預定義的最大長度。大模型推理的Prefill階段與Decode階段推理引擎前向傳播對輸入Prompt進行批量計算人工智能是一項硬件支持:硬件支持:GPUCPUXPU推理引擎人工智能是一項快速發展的技術人工智能是一項快速發展的技術人工智能是一項快速發展的技術前向傳播人工智能是一項快速發展的技術前向傳播未經過chunkedprefill拆分的請求,會將整個請求圖片來自TamingThroughput-LatencyTradeoffinLLMInferencewithSarathi-ServevLLM@FourthMeetup(Public)圖片來自TamingThroughput-LatencyTradeoffinLLMInferencewithSarathi-ServevLLM@FourthMeetup(Public)大模型推理的Decode階段推理引擎前向傳播對輸入Prompt進行批量計算人工智能是一項硬件支持:硬件支持:GPUCPUXPUDecode階段-Continuousbatchingdecode快速推理引擎快速發展的技術人工智能是一項發展的技術人工智能是一項前向傳播硬件支持:GPUCPUXPU就會導致GPU利用率不足。Decode階段-Continuousbatchingdecode例子來自/blog/continuous-batching-llm-inferenceDecode階段-SpeculativeDecoding?目標模型的并行驗證:將提出的詞元一次性送入目標模型進行驗證。?錯誤檢測和糾正:目標模型發現第三個詞元“cooking”不正確,應該是“playing”。例子來自https://blog.vllm.ai/2024/10/17/spec-decode.htmlDecode階段-SpeculativeDecoding例子來自docs.vllm.ai推理引擎前向傳播等待隊列-調度器前向傳播?服務收到REQ后,會首先把REQ加入到等待隊列中。調度策略決定了調度器如何從等待隊列中選擇和組合請求。以下是幾種常見的調度策略:):):優先處理具有最長匹配前綴的請求,通常用于優化緩存命中率。):優點:簡單實現,避免請求饑餓。缺點:不保證公平性和資源利用率最優化。,缺點:不保證公平性和資源利用率最優化。,圖片來自https://blog.vllm.ai據格式化)會與GPU密集型任務(如模型推理)競爭CPU資源。?通過將API服務器和推理引擎分離到不同的進程,利用多Lora節省大模型部署成本W表示大模型的一個原始參數矩陣。Lora的利用多Lora節省大模型部署成本大模型大模型數據數據基礎大模型合并參數部署大模型合并參數部署大模型對于每個業務場景,我們首先通過微調訓練生成一個Lora參數文件,然后將Lora參數利用多Lora節省大模型部署成本場景1大模型1場景2大模型2場景3大模型3真的需要為每個場景都獨立部署一個大模型嗎?利用多Lora節省大模型部署成本基礎大模型場景1場景1場景2場景3場景3每個業務場景都基于自己的業務數據訓練一個Lora
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 進修協議和進修合同
- 造價咨詢費合同協議
- 返還投資款合同協議
- 武器研制協議書
- 返修水電安裝合同協議
- 通風工程包工合同協議
- 灶具合作協議書
- 轉讓凍干機設備合同協議
- 連鎖酒店加盟轉讓合同協議
- 月餅進店協議書
- 2025年中國煤炭貿易市場全景評估及發展趨勢研究預測報告
- 電視節目策劃知到智慧樹章節測試課后答案2024年秋浙江傳媒學院
- 中醫特色治療及護理
- 新質生產力與高質量發展
- 航天任務工程款支付承諾書
- 《系統工程》復習題及答案
- 華東師范大學《算法設計與分析》2023-2024學年第一學期期末試卷
- 口袋廣場景觀規劃
- 2017年江蘇南京中考滿分作文《無情歲月有味詩》3
- 品牌運營合同范本
- 《Python程序設計》課件-5:列表的概念
評論
0/150
提交評論