云平臺服務器存儲應急預案_第1頁
云平臺服務器存儲應急預案_第2頁
云平臺服務器存儲應急預案_第3頁
云平臺服務器存儲應急預案_第4頁
云平臺服務器存儲應急預案_第5頁
已閱讀5頁,還剩2頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、云平臺服務器存儲應急預案目錄1 目的 2 適用范圍3 規范內容故障分類應急準備具體措施4 故障處理規范機房停電主機故障存儲系統故障錯誤 ! 未定義書簽。錯誤 ! 未定義書簽。錯誤 ! 未定義書簽。錯誤 ! 未定義書簽。錯誤 ! 未定義書簽。錯誤 ! 未定義書簽。錯誤 ! 未定義書簽。錯誤 ! 未定義書簽。錯誤 ! 未定義書簽。錯誤 ! 未定義書簽。云平臺軟件系統故障錯誤 ! 未定義書簽。云平臺管理服務器故障預防錯誤 ! 未定義書簽。云平臺日常告警故障排除錯誤 ! 未定義書簽。硬件故障預防與排除錯誤 ! 未定義書簽。故障預防錯誤 ! 未定義書簽。故障排除錯誤 ! 未定義書簽。故障處理錯誤 ! 未

2、定義書簽。1 目的為提高云平臺服務器、存儲故障處理能力,形成科學、有效、反應迅速的日常管理流程和應急處理機制,確保平臺的安全和穩定運行,最大限度地減小故障對生產的影響,降低業務中斷風險,特制定本規范。2 適用范圍本規范適用于提供云計算虛擬化平臺服務的服務器、存儲管理,應對發生和可能發生的故障。3 規范內容服務器運維和應急處理應包括風險評估,檢測體系和應急處理三個環節,合理有效的執行控制將防止故障影響擴大。3.1 故障分類平臺故障包括服務器硬件和存儲系統故障;自然災害(水、火、電等)造成的物理破壞;人為誤操作造成的損害等。3.2 應急準備部門責任人員明確職責和管理范圍,根據實際情況,安排應急值班

3、,確保到崗到人,聯絡暢通,處理及時準確。3.3 具體措施( 1) 建立安全、可靠、穩定運行的機房環境,防火、防雷電、防水、防靜電、防塵;建立備份電源系統。( 2) 虛擬化平臺服務器應采用可靠、穩定、兼容性硬件,落實責任管理機制, 遵守安全操作規范;對虛擬機和管理服務器進行定時備份;采用有效的虛擬化監控工具,及時發現問題和日報告。故障處理規范4.1 機房停電接到停電通知后,相關人員應及時部署應對具體措施,啟動備用電源, 保證服務器正常運行。4.2 主機故障( 1) 平臺服務器出現硬件告警需要停機維護,服務器責任人應立即通知相關人員, 將業務虛機遷移到集群中其他服務器主機上,再將故障服務器切換至維

4、護模式并從HA集群中移除,負責陪同硬件廠家現場更換至成功恢復。( 2) 若服務器硬件24 小時內無法恢復,服務器責任人需書面報告原因并立即通知業務管理人員進行數據應急備份, 防止災難擴大。( 3) 虛擬化存儲硬件出現告警,第一目擊人應立即通知存儲管理員,并上報主管領導,存儲管理員應在報告1 小時內聯系廠家到場處理,處理完成后因報告原因,找到解決方法;并立即對數據做完整性檢查,消除重復發生隱患。4.3 存儲系統故障( 1)做好存儲系統的定時備份,一旦出現數據損壞、丟失,能夠及時恢復系統。( 2)發生存儲系統故障后,相關人員應檢查出現故障的原因并盡快排除。( 3)如遇系統崩潰,數據丟失,應啟用備份

5、文件進行數據恢復。4.4 云平臺軟件系統故障( 1)日常做好虛擬機的定時備份和快照,系統崩潰后,能夠及時恢復虛擬機。( 2)發生虛擬機系統故障后,相關人員應及時通知業務人員檢查出現故障的原因并盡快排除。3)如遇虛擬機系統需要啟用備份系統進行恢復時,應在恢復后和業務管理員仔細檢查業務是否恢復并做好恢復記錄。4.5 云平臺管理服務器故障預防虛擬化服務器采用群集配置。配套管理軟件對虛擬數據中心管理單元進行集中管理,系統平臺常年24 小時運行,每天將產生大量的任務日志和記錄信息。同時管理服務器擔任了整個平臺主機管理和集中配置的角色,使用率極高。為了安全,應定期備份配置數據庫,定期檢查告警日志。4.6

6、云平臺日常告警故障排除當虛擬化平臺出現告警信息,通過以下步驟排除:1. 確定故障原因。查看已觸發的警報內容,確定故障前操作是否是引發該故障的原因,對合規操作引起的告警,進行消除。2. 對提示硬件產生的告警,應查看硬件狀態信息,對確認是硬件的問題按硬件維護預案處理。3. 對提示因資源不足或性能引發的告警,因查看近期性能圖表,找出原因,消除故障提示。4. 對于無法判斷的故障,可導出系統日志發給廠家分析處理。5 硬件故障預防與排除5.1 故障預防保持雙機運行狀態正常,單機出現故障后,及時對故障單機進行修復。5.2 故障排除當服務器出現硬件故障,通過以下步驟排除: ( 1)確定故障原因。依次查看電源、

7、硬盤、內存、主板、處理器等, 如條件許可,可使用替換法檢測各硬件。2)恢復固件缺省配置。比如去除第三方廠商備件和非標配備件。5.3 故障處理( 1) 硬盤故障處理:當硬盤出現黃燈提示預警時,應先查看硬盤數據是否丟失, 如數據存在應先做好數據備份,將此服務器各應用迅速轉移,然后排查報警具體原因,如由于錯誤操作或硬盤連接不好引起的報警,可嘗試重啟服務器,重新插拔硬盤等操作即可解決問題。如硬盤損壞,應及時將備用硬盤替換下故障硬盤,使服務器恢復正常工作。排查過程中,如不能正確判斷問題原因,不能隨便 操作,可向售后服務咨詢處理。( 2)內存故障:由于我們的服務器有多組內存,單條內存故障時,會對服務器性能稍有影響,當不會影響整體使用,所以如發現內存條損壞時,安排時間將損壞的內存條替換掉即可。(3) RAID卡故障:服務器的RAID卡出現故障時,系統會無法識別出硬盤, 服務器不能正常使用,所以應第一時間啟動備用服務器。將故障服務器移出生產網絡后更換RAID卡,RAID卡通過硬盤重新讀取RAID配置信息后即可恢復使用。(4) 4) 電源故障:現階段我們的服務器都是雙電,如果單路電源故障不影響運行,如果長期

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論