




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
目前,專注于字節(jié)跳動的服務(wù)器線上質(zhì)量建設(shè)與保障多年服務(wù)器研發(fā)測試、技術(shù)支持與海量運(yùn)營工作經(jīng)驗(yàn),曾任職華為、騰訊。負(fù)責(zé)解決過國內(nèi)外互聯(lián)網(wǎng)、運(yùn)營商、金融等領(lǐng)域的服務(wù)器疑難問題;制定服務(wù)器集群的硬件監(jiān)控標(biāo)準(zhǔn)與A100/A800/H800運(yùn)營流程;主導(dǎo)CPU\網(wǎng)卡\硬盤\GPUA100/A800/H800曾任TCCP講師(服務(wù)器運(yùn)維高級工程師課程)、獲VMWare、WindowGOGOPS全球運(yùn)維大會暨XOps技術(shù)創(chuàng)新峰會2024·北京站02線上質(zhì)量體系的建立03線上質(zhì)量的運(yùn)營實(shí)踐04展望GOGOPS全球運(yùn)維大會暨XOps技術(shù)創(chuàng)新峰會2024·北京站01線上質(zhì)量的重要性GOPS全球運(yùn)維大會暨XOps技術(shù)創(chuàng)新峰會2024·北京站服務(wù)器集群規(guī)模的快速增長全球首家100W臺全大規(guī)模服務(wù)器集群的運(yùn)營模式演進(jìn)大規(guī)模服務(wù)器集群的運(yùn)營模式演進(jìn) 隨著服務(wù)器集群規(guī)模飛速擴(kuò)張,機(jī)器型號層出不線上質(zhì)量問題的發(fā)現(xiàn)來源交付交付攔截廠商廠商反饋故障故障告警研發(fā)反饋產(chǎn)線產(chǎn)線攔截業(yè)務(wù)反饋GOGOPS全球運(yùn)維大會暨XOps技術(shù)創(chuàng)新峰會2024·北京站GOGOPS全球運(yùn)維大會暨XOps技術(shù)創(chuàng)新峰會2024·北京站02線上質(zhì)量體系的建立GOPS全球運(yùn)維大會暨XOps技術(shù)創(chuàng)新峰會2024·北京站全生命周期的服務(wù)器質(zhì)量管理新品導(dǎo)入新品導(dǎo)入生產(chǎn)質(zhì)量灰度質(zhì)量DOA質(zhì)量線上質(zhì)量GOGOPS全球運(yùn)維大會暨XOps技術(shù)創(chuàng)新峰會2024·北京站跨團(tuán)隊(duì)的服務(wù)器質(zhì)量工作協(xié)同02運(yùn)營/交付0102運(yùn)營/交付突顯技術(shù)優(yōu)勢,負(fù)責(zé)服務(wù)器的產(chǎn)品規(guī)劃、產(chǎn)品研發(fā)與測試、版本管理、產(chǎn)品質(zhì)量。質(zhì)量協(xié)同承擔(dān)服務(wù)器的線上運(yùn)營質(zhì)量指標(biāo)監(jiān)控與批次質(zhì)量問題治理,保障服務(wù)器高突顯技術(shù)優(yōu)勢,負(fù)責(zé)服務(wù)器的產(chǎn)品規(guī)劃、產(chǎn)品研發(fā)與測試、版本管理、產(chǎn)品質(zhì)量。質(zhì)量協(xié)同供應(yīng)鏈04平臺建設(shè)供應(yīng)鏈看護(hù)整機(jī)和關(guān)鍵部件的質(zhì)量指標(biāo),負(fù)責(zé)供應(yīng)商工廠質(zhì)量管理,處理影響交付進(jìn)度事件,協(xié)助線上批次質(zhì)量問題處理。主要為運(yùn)營和業(yè)務(wù)提供自動化、平臺看護(hù)整機(jī)和關(guān)鍵部件的質(zhì)量指標(biāo),負(fù)責(zé)供應(yīng)商工廠質(zhì)量管理,處理影響交付進(jìn)度事件,協(xié)助線上批次質(zhì)量問題處理。GOGOPS全球運(yùn)維大會暨XOps技術(shù)創(chuàng)新峰會2024·北京站線上質(zhì)量之從源治理源頭治理GOGOPS全球運(yùn)維大會暨XOps技術(shù)創(chuàng)新峰會2024·北京站量產(chǎn)評估量產(chǎn)評估 故障發(fā)現(xiàn)能力故障率監(jiān)控現(xiàn)場運(yùn)維能力質(zhì)量問題發(fā)現(xiàn)故障發(fā)現(xiàn)能力故障率監(jiān)控現(xiàn)場運(yùn)維能力質(zhì)量問題發(fā)現(xiàn)整機(jī)運(yùn)營基線部件運(yùn)營基線固件運(yùn)營基線運(yùn)營交付物產(chǎn)品易用性產(chǎn)品可維護(hù)性產(chǎn)品形態(tài)架構(gòu)方案平臺影響線上質(zhì)量之從源治理-生產(chǎn)質(zhì)量P級質(zhì)量事故管理、GPU整機(jī)MFR月度質(zhì)量目標(biāo)監(jiān)控關(guān)鍵部件質(zhì)量改善月度質(zhì)量目標(biāo)監(jiān)控DOA、批次問題SLA重點(diǎn)重點(diǎn)OXM廠商質(zhì)量管理MFR、AFRGOGOPS全球運(yùn)維大會暨XOps技術(shù)創(chuàng)新峰會2024·北京站線上質(zhì)量之從源治理-DOA質(zhì)量壓測部件性能測試壓測部件性能測試部件壓力負(fù)載測試功耗測試硬件信息檢查BMC/BIOS配置一致性檢查設(shè)備健康狀態(tài)GOGOPS全球運(yùn)維大會暨XOps技術(shù)創(chuàng)新峰會2024·北京站線上質(zhì)量之過程管控-線上質(zhì)量GOGOPS全球運(yùn)維大會暨XOps技術(shù)創(chuàng)新峰會2024·北京站線上質(zhì)量運(yùn)營體系GOPS全球運(yùn)維大會暨XOps技術(shù)創(chuàng)新峰會2024·北京站03線上質(zhì)量的運(yùn)營實(shí)踐GOPS全球運(yùn)維大會暨XOps技術(shù)創(chuàng)新峰會2024·北京站線上質(zhì)量問題的處理流程與關(guān)鍵指標(biāo)線上質(zhì)量問題的實(shí)時監(jiān)控線上質(zhì)量-故障率分析保有量:一段時間內(nèi)機(jī)器或部件數(shù)量MFR:=∑日故障數(shù)/等效保有量*100%線上質(zhì)量-宕機(jī)率分析宕機(jī)對單物理機(jī)業(yè)務(wù)的穩(wěn)定性挑戰(zhàn)最大,特別是大模型訓(xùn)練等業(yè)務(wù),對宕機(jī)尤為敏感;利用日志分析、圖像識別、關(guān)鍵字提取等技術(shù),自動對每一單宕機(jī)根因進(jìn)行科學(xué)判斷、統(tǒng)計、展示、及預(yù)警;對宕機(jī)根因進(jìn)行三級分類,一級:預(yù)期、非預(yù)期,二級:硬件宕機(jī)、軟件宕機(jī),三級:CPU、主板、內(nèi)存等;對少部分unknown宕機(jī)單深入分析,投入故障分析專家人工分析,持續(xù)改進(jìn),提取宕機(jī)分類特征值;l大模型訓(xùn)練集群l宕機(jī)根因的三級分類液冷專項(xiàng)對冷板式/浸沒式液冷服務(wù)器液冷專項(xiàng)對冷板式/浸沒式液冷服務(wù)器的運(yùn)營指標(biāo)進(jìn)行監(jiān)控,負(fù)責(zé)風(fēng)險預(yù)應(yīng)急處置對GPU進(jìn)行壓測和全鏈路監(jiān)控,包括:1)進(jìn)場和維修時Fieldiag半DCGM壓測,2)GPU狀態(tài)監(jiān)控:GPU卡在位狀態(tài),Nvlink鏈路狀態(tài)、SRAM半DRAM狀態(tài)AOC鏈路專項(xiàng)監(jiān)控和解決AOC/交換機(jī)/CX*網(wǎng)卡之間概率性鏈路信號質(zhì)量差導(dǎo)致的網(wǎng)絡(luò)兼容性問題GOPS全球運(yùn)維大會暨XOps技術(shù)創(chuàng)新峰會2024·北京站服務(wù)器關(guān)鍵部件的趨勢 個個個個個個個個服務(wù)器關(guān)鍵部件的趨勢應(yīng)用程序應(yīng)用程序存儲、安全存儲、安全廠商代表產(chǎn)品發(fā)布時間NVIDIABlueField-42023BlueField-32021BlueField-22020FPGAIPUC502X2020XilinxAlveoU252020BroadcomStingray2018服務(wù)器形態(tài)與集群的發(fā)展趨勢在高散熱需求下,液冷已成為服務(wù)器溫控技術(shù)的政策要求物理極限芯片功率密度逐代升高,但電子器件的失效溫度仍保持不變,散熱挑戰(zhàn)更大國家對數(shù)據(jù)中心PUE和能耗雙控的綠色達(dá)標(biāo)要求越來越高,傳統(tǒng)風(fēng)冷方案已無法解決散熱功耗變化隨著芯片散熱功率提升,用于冷卻的風(fēng)扇功率呈指數(shù)級增高,總功耗上升服務(wù)器形態(tài)與集群的發(fā)展趨勢云游戲,網(wǎng)絡(luò)直播,自動駕駛等。多樣化的應(yīng)用驅(qū)動更靠近客戶端去部署云服務(wù),業(yè)務(wù)網(wǎng)絡(luò)延遲低。云游戲,網(wǎng)絡(luò)直播,自動駕駛等。多樣化的應(yīng)用驅(qū)動更靠近客戶端去部署云服務(wù),業(yè)務(wù)網(wǎng)絡(luò)延遲低。云上的專屬物理服務(wù)器,在滿足核心應(yīng)用場景對高性能及穩(wěn)定性需求的同時,還兼?zhèn)湓朴嬎愕膹椥浴㈧`活性。展應(yīng)用,同時可按需動態(tài)調(diào)整資源分配。保證應(yīng)用的高可用性和穩(wěn)定裸金屬線上質(zhì)量管理的挑戰(zhàn)需要線上質(zhì)量團(tuán)隊(duì)承載更多原來由OEM?商負(fù)責(zé)的技術(shù)分析、資源協(xié)調(diào)等?作不同業(yè)務(wù),對同?故障的敏感度會不?樣不同業(yè)務(wù),對同?故障的敏感度會不?樣,需要根據(jù)業(yè)務(wù)特點(diǎn)去定制化服務(wù)器監(jiān)管控策略需要根據(jù)各部件特點(diǎn),開展?PN更細(xì)顆粒度的分析,監(jiān)控物料來源及其報錯類型,?如CPU的DateC
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 無息貸款合同
- 工程服務(wù)外包合同
- 安裝工程分包合同協(xié)議書
- 學(xué)校租賃校舍合同書
- 接手項(xiàng)目合同協(xié)議
- 出讓合同解除協(xié)議
- 廣告播放合同協(xié)議
- 鋼材貿(mào)易合同協(xié)議
- 勞資協(xié)議雙向合同
- 品種轉(zhuǎn)讓協(xié)議合同
- 《食品營養(yǎng)與衛(wèi)生學(xué)》課程標(biāo)準(zhǔn)
- 電氣設(shè)備與線路的安裝與調(diào)試
- 酒店前廳部溝通技巧
- 達(dá)利《記憶的永恒》課件
- 牛頓教學(xué)課件
- 車隊(duì)事故分析報告總結(jié)
- 化學(xué)藥品原料藥制造行業(yè)報告
- 工業(yè)園區(qū)的消防安全管理課件
- 2024信息安全意識培訓(xùn)ppt課件完整版含內(nèi)容
- 互聯(lián)網(wǎng)數(shù)據(jù)中心(IDC)業(yè)務(wù)介紹
- 數(shù)學(xué)模型姜啟源課件
評論
0/150
提交評論