自動化監控平臺實踐-課件_第1頁
自動化監控平臺實踐-課件_第2頁
自動化監控平臺實踐-課件_第3頁
自動化監控平臺實踐-課件_第4頁
自動化監控平臺實踐-課件_第5頁
已閱讀5頁,還剩37頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、1號店自動化監控平臺實踐張定鵬 資深架構師 1號店案例背景與簡述監控平臺架構介紹自動化監控平臺實踐案例分析案例啟示摘要案例背景線上有事故了,怎么沒收到告警?哪里能看到?這個業務不是我負責的,為什么告警給我?這個業務正在發布,怎么收到這么多告警? 現象發布錯漏告警缺失責任混亂排障遲緩面臨的挑戰準快全無盲點全覆蓋無誤報無噪點實時性及時性標準化智能化運營化案例介紹告警收斂告警過濾根源定位CMDB監控模板監控部署日志規范告警事件標準業務健康事故處理中心監控大屏案例背景與簡述監控平臺架構介紹自動化監控平臺實踐案例分析案例啟示摘要樂道云平臺監控平臺架構-模塊監控管理數據采集TrackerHealthChe

2、ckSOA采集ZabbixSNMPIPMILogAgentScript數據展示監控部署數據監控數據日志業務數據配置數據監控設置監控報表告警事件告警設置告警分析事件管理事故處理中心監控服務基礎監控日志監控業務監控業務健康監控模板告警過濾監控平臺架構- 全方位采集 TomcatNginxMemcacheDatabase 服務器交換機路由器存儲設備負載均衡WebWebServiceServiceSOATrackerIPMILogAgentHealthCheckZabbixZabbixSNMPSOA采集日志業務數據監控數據配置數據日志:50億條/天(峰值)監控:2.6億條/天(均值)調用:37億次/天

3、(均值)案例背景與簡述監控平臺架構介紹自動化監控平臺實踐案例分析案例啟示摘要實踐1-標準化標準化程度決定產品的高度數據標準化CMDB監控模板日志告警事件流程標準化監控部署標準化-CMDB 困難來源多格式雜牽涉廣狀態亂業務信息組織關系基礎資源主 機交換機存 儲部 門站 點機 柜機 房應 用系統配置運 維負責人研 發 應用模板供應商依賴關系標準化-監控模板不同設備有各自的默認模板服務器,虛擬機,交換機,負載均衡,反向代理等標準化-監控模板每個應用有對應的自定義模板緩存,軟件負載均衡,DB,消息隊列,Web Server等標準化-監控部署裝機空閑期服務期維護期報廢替換模板禁用啟用禁用啟用刪除監控添加

4、監控空白模板由部署系統觸發監控狀態和模板的變更標準化-日志路徑不同類型的日志規定各自固定的目錄;規范的日志文件名形式;格式日期 時間 日志級別 線程 位置 日志內容;規范時間格式;規范日志級別;內容規定日志中不能出現敏感信息的內容;日志平臺訪問日志應用日志交換機日志硬件日志Track日志標準化-告警事件預分配權限驗證API統一接入規范化消息發送路徑標準化事件等級標準化事件類型標準化事件源規范化層級類型 業務類型數據類型設備等級應用等級嚴重等級等級依據所屬部門默認路徑去除多路唯一入口存在的問題都是自定義的,到底誰報的?什么類型的告警?內容分不清這個告警到底嚴不嚴重?設置的通知人離職了,沒人收到這

5、條告警告警只有內容和IP,怎么按部門統計?數量太多看不過來內容各式各樣,無法區分問題在哪?如何發現問題智能實踐2-告警智能化告警去重合并收斂根源定位智能化-告警事件系統架構APIRabbitMQWorkerWorkerWorkerMysql事件告警CMDBHR DB收斂策略過濾策略通知策略NotifyRabbitMQ設置分析智能化-告警事件去重合并去噪消除波動性誤報;消除由于發布變更等引起的誤報;按時間區間去重不同類型告警設置不同的時間有效性;穩定性告警合并CPU使用率、負載,網卡流量等不會直接影響服務的告警;按應用合并、按IP合并、按內容合并;可性告警合并HealthCheck,軟件進程、服

6、務是否掛掉等直接導致不可用的告警;相同層次的告警按應用合并成條;智能化-告警事件收斂Application(HealthCheck)Software(Alive)System(Ping)Network(Ping)屏蔽上層告警系統故障因服務器、路由器、交換機等損壞以及操作系統文件配置、網絡配置引發系統宕機導致1號店系統無法正常使用的事件。智能化-告警事件收斂應用故障設計需求理解偏差,設計缺陷、程序Bug、操作數據庫及發布失敗,回滾引發的導致系統無法正常使用的事件。負載均衡(Usable)HealthCheck告警(大量)數據接口(Error)緩存(Usable)數據庫(Usable)屏蔽上層告警

7、變更系統(記錄)告警收斂案例1-系統故障核心交換機物理機虛擬機TomcatAPP接入交換機物理機虛擬機TomcatAPP物理機虛擬機TomcatAPPPing交換機日志進程存活端口連通HealthCheckPing告警收斂案例2-應用故障DBTomcatAPPMemcacheLoadBalance緩存接口JDBCTomcatAPP緩存接口JDBCTomcatAPP緩存接口JDBC變更系統HealthCheck(大量)記錄訪問失敗日志告警Ping端口連通實踐3-運營化運營化服務用戶體驗產品協助改善協同參與運營推廣業務健康指標事故處理中心監控大屏運營化-業務健康系統架構事件API告警事件系統采集W

8、orkerWorkerWorkerAPI業務系統Redis Queue業務業務日志SQLAPIAPIRedis Queue告警判斷WorkerWorkerWorkerMysql告警規則采集策略指標添加運營化-業務健康指標添加業務健康指標項運營化-業務健康指標添加采集方式DB, API, 應用日志運營化-業務健康指標添加告警規則閾值,時間區間,報警間隔等事故發生了,怎么辦?事故處理中心運營化-事故處理中心開啟事故信息匯總事故處理關閉事故過程記錄告警日志發布手動輸入重啟,回滾,擴容處理事故后分析事故記錄分析總結事故處理中心變更記錄信息錄入時間軸影響范圍事故處理郵件發送過程記錄事故后分析手機同步展示監控平臺配置發布運營化-監控大屏案例背景與簡述監控平臺架構介紹自動化監控平臺實踐案例分析案例啟示摘要案例ROI分析Ping無響應告警進程存活告警全部告警Ping無響應告警進程存活告警全部告警下降70%下降72%下降85%告警數量

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論