




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
快手基礎技術部容器云技術中心1背景與趨勢2GPU虛擬化與混部3GPU潮汐混部實踐4持續演進與展望快手編排調度發展歷程2018~20192019~2020CPU在離線混部CPU潮汐混部2021~2022GPU虛擬化與GPU混部2023~后續業務背景與趨勢GPU硬件多年持續迭代GPU算力需求多樣化提升GPU算力需求多樣化提升GPU資源效率與云原生化快手內部GPU在線服務及離線訓練任務均完成云原生化遷移背景:成本問題逐步凸顯核心優化目標:GPU資源利用率提升GPU卡規模GPU服務運行效率主流A100主流A100、A30、A10、T4等多型號數萬臺GPU主機&十萬量級GPU卡在線服務(推理等)在線服務(推理等)、AI訓練任務及近線服務(特征提取等)多樣化場景在線服務GPU峰均差值約30PP訓練類算力全天需求旺盛·業務框架適配GPU卡型多樣利用率穩定性GPU顯存約束GPU編解碼器面臨挑戰·業務框架適配GPU卡型多樣利用率穩定性GPU顯存約束GPU編解碼器云原生下的云原生下的挑戰成本優化成本優化是目標,穩定性保障是前提1背景與趨勢2GPU虛擬化與混部建設3GPU潮汐混部實踐4持續演進與展望請求優先級在線容量冗余,峰值高而日均利用不足離線訓練成本高昂請求優先級在線容量冗余,峰值高而日均利用不足離線訓練成本高昂,近線類需求旺盛分時復用削峰填谷高優搶占消除冗余保障實時在線需求任務顆粒度任務顆粒度VGPU大量單實例無法用滿GPU資源硬件算力持續增強形成浪費GPU算力渲染器編碼器顯存提升利用率優化成本VV顯存分配識別顯存水位預測顯存實時避讓如何落地系統能力顯存分配識別顯存水位預測顯存實時避讓……Services音視頻增強特征提取等音視頻增強特征提取等框架平臺定義與調度VGPU在線業務場景顯存隔離限制顯存隔離限制編解碼器攔截混部GPU離線訓練與近線任務離線時間片兜底算力請求優先級離線時間片兜底離線內存監測硬件基礎設施GPU卡CPU內存網絡存儲允許多容器允許多容器實例在資源隔離前提下共享GPU卡VGPU實例:CPU+內存+算力占比+顯存占比+器件選配業務:用量減少成本降低平臺:部署密度增加利用率提升路徑方式收益GPUGPU顯存N分之一N分之一算力/顯存GPU算力GPU算力編解碼器可選項多實例共享單實例獨占GPU顯存GPU虛擬化底層技術選型多進程共享上下文,吞吐指標更優缺乏故障強隔離,容器間異常會傳導不支持顯存硬隔離內核層劫持內核層攔截驅動API隔離顯存/算力細粒度的顯存和算力調度策略無需替換CUDA庫上層應用無感CUDA層劫持(vCUDA)CUDA層攔截API隔離顯存/算力依賴容器鏡像替換CUDA庫CUDA發新版需要迭代適配硬件物理切分方式,適用A100、A30等卡型不支持動態劃分依賴CUDA11及以上高版本快手GPU虛擬化方案技術路線:技術路線:內核態劫持●算力隔離:基于內核態的時間片輪轉調度,多容器時分復用GPU計算器件●顯存隔離:基于內核態劫持顯存申請、回收等接口,控制容器使用顯存配額共享GPUVGPU按時間片調度示意圖性能壓測數據聚合QPS對比原生GPU整卡快手虛擬化單卡雙實例MPS方案單卡雙實例P99延遲對比原生GPU整卡模式快手GPU虛擬化單卡兩實例MPS方案單卡兩實例按比例切分出VGPU單元GPU虛擬化-按比例切分出VGPU單元產品設定不同比例套餐并推薦產品設定不同比例套餐并推薦資源套餐通用GPUA30(8核12GB整卡50%顯存)資源套餐通用GPUA30(4核8GB0.5卡50%顯存)VGPU集群資源調度架構碎片控制>存核比匹配優化瓶頸負載感知>編解碼器顯式分配>離近線+低壓力在線優先組合>在線VGPU擴容感知混部GPU在線請求實時搶占d請求suspend什么是GPU混部?在線請求實時搶占d請求suspend允許允許在線和離近線容器實例在請求優先級保障前提下共享同一塊GPU卡算力搶占在線服務有GPU計算請求時立刻獲取算力執行,離線服務的請求被壓制顯存避讓當剩余GPU顯存低于安全閾值時,離線服務實例會被立即驅逐以釋放顯存供給在線服務進程kGPU驅動4感知顯存實時可申請量4感知顯存實時可申請量 僅在線服務運行的GPU利用率GPU僅在線服務運行的GPU利用率GPUGPU混部提升利用率示意在線與離近線復用資源下的在線與離近線復用資源下的GPU利用容器2CUDAAPPCUDAAPP……容器2CUDAAPPCUDAAPP……KgpuKgpuDeviceWrapper>業務透明無感切換GPUGPU算力調度器核心功能因素核心功能因素容器1容器1CUDAAPPKGPUKGPUDeviceWrapper硬件硬件GPU卡利用率提升效果穩定性保障>完備的故障隔離能力>實時量化干擾指標業務成本顯著下降>對接服務成本優化超50%>數千卡近線類算力穩態供給推理類資源池利用率提升顯著>GPU峰均提升約6PP>GPU日均提升近7PPGPU日均利用率趨勢1背景與趨勢2GPU虛擬化與混部建設3GPU潮汐混部實踐4持續演進與展望?延時極度敏感??延時極度敏感?性能波動關乎收入?潮汐特征明顯?訓練過程需要穩態運行?資源配額實時協調GPUGPU整機維度分時復用?多機多卡高算力需求?多角色Gang調度?任務非實時可推遲運行風險XVS?X?XX風險與挑戰風險XVS?X?XX推理穩態運行建設08:30~22:30在線業務流量持續高位推理穩態運行建設08:30~22:30在線業務流量持續高位實時搶占07:30~08:30時段建設在線服務逐步擴容增加容量,搶占邏輯最高優技術技術技術訓練任務運行在離資源轉換訓練任務運行時段建設23:30~07:30時段建設23:30~07:30凌晨在線流量持續低谷建設建設提升訓練任務錯峰規模化運行穩定性,盡力減技術關鍵技術技術關鍵技術策略離線訓練運行保障策略08:3008:30~22:3022:30~23:3023:30~07:3007:30~08:30離線訓練任務運行規模趨勢特點離線GPU資源持續壓制狀態離線GPU資源逐步增多離線GPU資源規模趨勢于穩定態離線GPU資源被實時搶占GPU日均提升成本優化潮汐策略運轉效果GPU日均提升成本優化凌晨時段資源轉化抽取率20+%混部GPU實際分配率近80%GPU日均提升3~5PP2023年潮汐范圍GPU日均趨勢僅以T4和A10型號為統計范圍凌晨時段可轉化節省數千塊A10卡和T4卡年化收益數千萬
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 污水處理與資源化利用-全面剖析
- 云計算平臺的性能優化策略-全面剖析
- 小學英語教學中語法教學的實踐與反思論文
- 冰島語與威爾士語的對比研究論文
- 2025年寵物訓導師職業能力測試卷:初級技能應用題
- 文化傳承與創新志愿者角色-全面剖析
- 2025年育嬰師職業技能大賽模擬試卷:育嬰師嬰幼兒健康監測試題
- 2025-2030全球及中國汽車絲網清洗產品行業市場現狀供需分析及市場深度研究發展前景及規劃可行性分析研究報告
- 2025年ACCA國際注冊會計師考試真題卷:公司戰略與風險管理試題
- 2025-2030全球及中國房地產及物業管理服務行業市場現狀供需分析及市場深度研究發展前景及規劃可行性分析研究報告
- 2024年蘇州市軌道交通集團有限公司招聘筆試參考題庫附帶答案詳解
- 新概念英語第2冊課文(完整版)
- 水培吊蘭的養殖方法要領
- 動物的遷徙行為與地球生態系統
- 總成修理工安全操作規程
- 【小學心理健康教育分析國內外文獻綜述4100字】
- 校園金話筒大賽(臨沂賽區)策劃書
- 正確使用文丘里面罩
- 破碎錘施工方案
- 2023年10月自考00161財務報表分析(一)試題及答案含評分標準
- 大學物理第8章-機械振動
評論
0/150
提交評論