AIOPS的實踐和探索_第1頁
AIOPS的實踐和探索_第2頁
AIOPS的實踐和探索_第3頁
AIOPS的實踐和探索_第4頁
AIOPS的實踐和探索_第5頁
已閱讀5頁,還剩29頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、AIOPS的實踐和探索目錄一、背景介紹二、AIOPS的思考三、AIOPS的實踐方案四、經驗和總結運維體系介紹技術支撐技術支撐核心技術支撐addopsDBANet AccessOpenstackCephopsdevcontainerInfrastructureAIOpsSiteOpsNocNetOpsSAOdin基礎平臺Hulk云平臺互聯網服務網絡安全服務安全大腦SREAddOpsOps基本情況概覽技術沉淀產品沉淀資源沉淀服務沉淀業務沉淀100+專利10+開源貢獻物理/虛擬主機K8s+容器服務自有BGP網絡20+城市服務節點大數據服務人工智能服務搜索視頻日請求150億軟件倉庫100+IDC云視頻

2、服務信息流日訪問量8499億關系型數據庫10+數據中心云存儲服務智能硬件DB訪問6000億KV數據庫10萬+服務器安全服務個人安全2EB安全大數據S3存儲骨干帶寬4T推送/IM服務瀏覽器可信云認證Hadoop生態核心節點雙環路IoT服務金融等保三級大數據應用1000+業務線資源沉淀運維現狀軟硬件環境硬件和軟件 數量的爆炸 式增長新的架構層 出不窮監控平臺監控數據沒 有發揮價值傳統閾值報 警的弊端故障定位故障種類、 原因的復雜 性需要花費很 長時間定位運維人員同時要處理 多個故障7*24小時的 職守發展歷程2012年以前標準化&工具化2012年-2016年精細化&平臺化2016年-2017年數據

3、化&可視化2018年智能化單點應用&部 分串聯能力2018年以后智能閉環,極 大解放生產力目錄一、背景介紹二、AIOPS的思考三、AIOPS的實踐方案四、經驗和總結場景的選擇智能變更 容量預測 報警收斂 智能問答容量規劃 性能優化 預算評判成本效率退還推薦 資源調度根因分析 異常檢測 瓶頸分析 輔助決策 故障自愈場景的選擇-成本天下武功,唯富不破;馬氏太極,以錢克剛。服務器加速流轉(2000萬)資源回收預算系統AI助手智能調度,提升利用率(50%+)DB智能調度分時計算場景的選擇-效率天下武功,無堅不破,唯快不破。異常檢測(基線)根因分析關聯分析根因分析故障自愈故障預測磁盤自動清理磁盤故障預測

4、CPU報警處理團隊構成看病出方制藥懂業務,有數據,提需求,要目標。懂業務,玩數據,會編程,重交付。懂算法,能建模,會編程,保質量。有產品理念的運維有大數據背景的運維開發有算法和工程化經驗的開發目錄一、背景介紹二、AIOPS的思考三、AIOPS的實踐方案四、經驗和總結數據積累IDC數據網絡數據主機硬件操作系統進程數據VIP流量訪問日志業務打點業務日志數據庫指標數據庫日志中間件指標容量預估目標不同準確率、不同時間開銷、不同預測時間的時間序列預測算法。基于周期性檢測的時間序列預測算法(PAPC)容量預估目標不同準確率、不同時間開銷、不同預測時間的時間序列預測算法。周期性檢測容量預估目標不同準確率、不

5、同時間開銷、不同預測時間的時間序列預測算法。PAPC+LR普通+LSTM準確率(PCT)0.0440.044時間開銷2.63s23.8s預測結果預測模型LR、ARIMA、bp神經網絡、LSTM指標準確率時間開銷周期性序列非周期性序列PAPC的準確率、時間開銷跟普通的一樣。分類目標盡可能高的準確率、不同分類任務的分類算法。分類模塊模型選擇;調參;組合;樣本問題負樣本特別少,樣本庫正負樣本數量懸 殊;標注成本高;解決方法:理想情況:用戶(運維人員)標注;一般情況:過濾規則+用戶(運維人員)標注;規則+自動生成樣本;隨機采樣;無監督學習;資源回收目標解決線上機器利用率低的問題,提高資源利用率。核心模

6、塊:機器畫像(預測);機器分類;效果:準確率:90%以上;回收1500臺機器,約1.6千萬;MySQL智能調度系統數千個數據庫的實例,由于歷史因素,線上資源存在浪費的現象實例基本信息采集cpu、內存使用率、磁盤占有率;io讀寫、實例網卡流量;標簽類別低消耗端口、計算型端口、存儲型 端口、綜合型(計算型和存儲型) 端口;Label編碼實例個數低消耗1,0,0,0206計算型0,1,0,0273存儲型0,0,1,0270綜合型0,0,0,1140背景MySQL智能調度系統核心模塊:實例和機器畫像(預測和定量分析);決策樹分類;調度算法:盡量保證遷移次數少盡量少的避免切主保證主庫和大容量端口的穩定性

7、控制每臺機器上主庫的個數(不超過5個)和實例總個數同一端口的實例不能出現在同一機器上不調度黑名單機器等等效果:某機房30臺高負載機器中的14臺變為可用。效率效率方面提高運維效率;自動化智能運維;流程:發現問題分析問題解決問題;kpi聚類目標多維時間序列實現聚類。方法:歸一化;嘗試不同聚類方法;異常檢測目標準確率高、召回率高和誤報率低的檢測算法。傳統檢測方法恒定閾值 累計恒定閾值(單點抖動) 缺點規則單一,復雜突發情況無法應對累計方式會漏掉關鍵報警閾值設置受時間或者空間的變化影響異常檢測多種檢測方法投票(無監督)Isolation Forest:異常數據跟樣本中大多數數據不太一樣。異常數據在整體

8、數據樣本中占比比較小。二叉樹的個數: 100樹深度:10平均路徑長度越短,越異常EWMA+3:EWMA(t ) = Y(t)+ ( 1-) EWMA(t-1)for t = 1, 2, ., n輸入值與EWMA預測值 參與計算的均值波動3倍 標準差之外的視為異常異常檢測交換機流量突變LVS流量突增突減場景敏感、一般、不敏感根據敏感程度設置閾值檢測等級準確度高于95%+節省了人力,運維和開發都受益效果信息流導航用戶中心使用業務異常檢測有監督學習效果:公開數據集:http:/iops.aiF-Score:0.8報警收斂收斂規則知識庫關聯規則-Apriori算法同一主機維度的監控項, 較短的時間窗口內,多個報警事件的關聯分析人工規則運維經驗效果1)生成20+關聯規則2)報警減少60%-80%主機報警事件的根因分析指標和報警事件的關聯主機報警事件的根因分析指標和事件相關性Correlating Events with Time Series for Incident Diagnosis信息增益比信息增益和信息增益比是衡量離散特征 對模型的貢獻程度的重要指標目標是只找到最有價值的監控項xgboost分類二階泰勒展開;正則化;列抽樣;并行化;主機報警事件的根因分析效果展示優化進程級別的時間序列;相關性分析

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論