




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
存儲作為存放金融企業數據中心各類生產數據的重要載體,其日常的安全平穩運行至關重要。特別是應對若干存儲的大量告警,如何從大量告警中提取關鍵告警消息并及時處理異常,可謂對存儲平臺的穩定運行起到保駕護航的作用。存儲告警處理作為常規工作,一方面需要在技術層面上及時發現告警并處理,另一方面還要在制度層面符合ITIL流程管理的規定。存儲告警中硬盤及電池的告警相對較多,此類告警出現時通常需要更換備件解決,且更換操作均屬于標準流程。因此,存儲硬件類告警的日常處理,如果兼顧流程、實際情況能納入自動化管理,對于工作效率的提升將十分明顯。下面分別介紹“傳統、目前、未來”三個階段在發現存儲故障、提交廠商信息報修、同步ITIL流程三個方面的具體情況,旨在幫助讀者更好地了解在自動化推進中各階段亟需解決的問題。一、傳統存儲故障處理流程1.發現存儲故障機房值班人員通過每天定期現場巡檢,借助存儲物理亮燈可以發現異常情況并告知存儲運維人員進行處理。由于人工巡檢頻率較低,發現異常相對比較滯后,且存在漏檢可能。為了能及時發現存儲設備存在的告警,早期通過在各存儲管理平臺配置SNMPTrap,將告警信息由運行監控中心發送給存儲運維人員。這類告警即時性相當高,有效輔助運維人員在第一時間發現設備異常,但告警消息數目較多且缺乏過濾及壓縮,也給運維人員的日常工作帶來了一定的困擾。2.提交廠商日志確認并安排維修SNMPTrap類告警消息因缺少設備序列號、機柜位置、部件位置、部件規格等明確信息,無法直接轉發給廠商工程師進行設備報修,一般需要單獨收集相關日志發送給廠商進一步分析,或者需要運維人員通過命令行或GUI等工具反饋具體信息給廠商。設備報修要求出具相關部件的準確信息,而基于一定規則定制的告警消息無疑將使報修流程化繁為簡,在日常運維中將節省大量的時間。3.納入ITIL流程存儲硬件更換在制度上納入ITIL流程變更管理,通常需要由存儲運維人員在ITIL管理平臺申請事件工單和變更工單。運維人員梳理設備告警情況,并跟廠商確認好部件更換工作,先在ITIL管理平臺中提出事件工單,然后關聯此事件工單創建變更工單。事件工單經服務臺確認后需要運維人員反饋事件原因和解決方案。變更工單經變更經理審核后需運維人員制定方案,并依次經變更經理、室經理、分管負責人審批后方能實施。變更實施完成后,運維人員還需要在事件工單和變更工單中說明變更時間和實施情況,如圖1所示。圖1傳統階段存儲故障處理流程示意圖二、目前存儲故障處理流程1.發現存儲故障引入硬件監控平臺,按照一定的時段輪詢獲取各品牌型號存儲的告警信息。此類告警較Trap而言即時性相對較差,但采用了一定的規則過濾出等級較高的信息進行推送。告警消息少而精,便于定制,能更好地滿足運維人員的日常管理要求。例如,針對重復的告警,可以采用壓縮算法,通常可以4小時報一次,直到問題解決。針對info、warning等較低級別的告警可以實現過濾,而只給運維人員推送error和critical等較高級別的告警。2.提交廠商關鍵信息并派件維修借助硬件監控平臺的廣泛使用,設備告警消息通過運行監控中心按一定規則拼接后可以發送給運維人員。對于絕大多數情況,運維人員無需再登陸系統進行二次確認,直接可將告警消息轉發給廠商人員即可安排派件維修。3.納入ITIL流程同傳統階段,運維人員仍需在日常工作中消耗一定的時間和精力來申請事件及變更工單并跟進流轉。如圖2所示。圖2目前階段存儲故障處理流程示意圖三、未來存儲故障處理流程前兩個階段在變更實施和ITIL流程管理上,兩條線相對獨立尚未進行融合,這與自動化運維管理仍有一定的差距。為進一步優化日常存儲告警的處理工作,未來應著力于在ITIL流程中實現工單中模板化的東西由系統推送,并根據監控平臺推送的恢復告警來自動反饋工單的解決方案和實施情況等信息。1.發現存儲故障和判斷故障恢復目前硬件監控平臺只能抓取設備的異常告警,對于故障修復后未能生成恢復類告警,需要人工參與判斷是否完成故障修復。若監控平臺對于特定設備能及時判斷故障是否修復并生成恢復告警,則有益于推進ITIL流程的自動化管理,極大減少人工參與環節。2.提交廠商關鍵信息并派件維修此部分盡可能針對不同品牌型號的存儲及不同部件,進一步細化告警信息,從而實現告警消息轉發后的正常派件維修即可。3.ITIL流程自動化審批硬件監控平臺將收集到的異常告警及時推送至智能平臺。智能平臺加工整合收集到的異常告警,識別出常見的壞件告警(例如硬盤、電池告警),并基于選定的時間范圍,按照既定的模板向ITIL管理平臺提交事件工單和變更工單申請。變更工單經變更經理審核確認后,由智能平臺提供模板完成方案制定環節的提交。ITIL管理平臺在事件工單經服務臺審批后發送給智能平臺處理,并將變更工單實施環節發送至智能平臺進行處理。后續由硬件監控平臺捕捉設備告警是否修復,如正常完成修復,向智能平臺及時推送恢復告警消息。智能平臺最終基于恢復告警消息,向ITIL管理平臺反饋實施情況從而關閉相關工單。顯然,智能平臺承擔了運維人員ITIL流程管理相關的工作,其對監控告警的識別和整合發揮著不可替代的作用。如圖3所示。圖3未來階段存儲故障處理流程示意圖綜上所述,為了提升存儲告警處理的自動化運維管理水平,一
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025 年高空作業車租賃合同
- 供用熱力服務合同樣本
- 2025年微晶氧化鋁陶瓷耐磨材料項目發展計劃
- 《2025建筑設備租賃合同混凝土攪拌未簽訂》
- 買方回復銷售合同標準文本
- 二零二五版正規加盟合同書范例
- 佛塔修建合同標準文本
- 鄉村振興基金合同樣本
- 退股協議書二零二五年
- 二零二五版租房門面房合同范例
- TRIZ理論――創新方法課件
- CORN術中獲得性壓力性損傷風險評估量表評定細則解讀
- 中國大唐集團公司以熱率為核心能耗管理指導意見
- 南方科技大學自述信800字范文六篇
- (1.3)-災害護理學第二章災害應急體系
- 客戶ABC分類管理
- GB/T 5162-2021金屬粉末振實密度的測定
- GB/T 12755-2008建筑用壓型鋼板
- GB 8372-2001牙膏
- GA/T 882-2014訊問同步錄音錄像系統技術要求
- 喬木、灌木栽植方案
評論
0/150
提交評論