2023數據中心運行維護與管理標準_第1頁
2023數據中心運行維護與管理標準_第2頁
2023數據中心運行維護與管理標準_第3頁
2023數據中心運行維護與管理標準_第4頁
2023數據中心運行維護與管理標準_第5頁
已閱讀5頁,還剩40頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

22數據中心運行維護與管理標準202355目 次總 則 1術 語 2基本規定 4組織架構與人員管理 5日常運行維護與管理 7一規定 7事管理 8問管理 9變管理 9文管理 10安管理 質管理 14應急管理 16成本與能效管理 19本標準用詞說明 21引用標準名錄 22附:條文說明 23PAGEPAGE10總 則數據中心的運行、維護和管理除應執行本標準外,尚應符合國家術 語應演練 emergencyexercise針對特定突發事件的場景,按照應急預案所規定的職責和程序,執行應急響應任務的訓練活動。應急形式包括桌面演練、模擬演練和實戰演練。應預案 emergencyplan針對可能發生的事故,為迅速、有序地開展應急行動而預先制定的行動方案和采取的措施。服臺 servicedesk數據中心提供方與需求方之間信息溝通的平臺,是服務接入的門戶。事件 incident引起或可能引起服務中斷或服務質量下降的情況。服等級議 servicelevelagreements(SLA)由數據中心與客戶之間簽訂的一項或多項服務協議,作為評價、考核和調整運維服務的標準。能管理 energyefficiencymanagement在保證業務連續可用的基礎上,對數據中心全生命周期內連續供應的能源進行綜合利用、能效分析評估及改善提升。電利用率 powerusageeffectiveness(PUE)數據中心內所有用電設備消耗的總電能與所有電子信息設備消耗的總電能之比。在維護 onlinemaintenance對處于運行狀態的設備進行檢查和維護,且實施的檢查和維護不會影響系統的正常運行。離維護 offlinemaintenance對處于運行狀態的設備進行檢查和維護會影響系統正常運行時,需要將在線運行的設備更換撤離后再進行檢查和維護?;疽幎〝祿行牡倪\行、維護和管理應依據現行國家標準《數據中心設GB50174GB/T51314的有關規定,結合數據中心自身的運營性質、管理要求及其在經濟和社會中的重要性,建立運行、維護和管理團隊,制定運行維護管理制度和工運行、維護和管理體系應覆蓋數據中心運行的全過程,宜采用電運行、維護和管理團隊應滿足數據中心業務開展的需要,人員崗運行、維護和管理應識別數據中心潛在的風險,制定風險預防措運行、維護和管理應在確保數據中心可用性和可靠性不受影響的組織架構與人員管理數據中心應建立滿足運行、維護和管理要求的組織架構。組織架構應根據數據中心的等級以及經營、管理和業務模式設置部門,并應明數據中心應設置電子信息系統和基礎設施的運行、維護和管理崗位,并應設置安全、質量控制、綜合管理和客戶服務等崗位。對關鍵技管理人員應熟悉運行、維護和管理體系和流程;應組織制定工作計劃和年度績效目標,下達工作任務,并指導和監督各項工作的落實;管理人員入職或職位變動時,應進行資格、從業經歷或業務能力技術人員應具備所在崗位的專業技術能力,從事特定工作的人員數據中心應制定年度運行和維護人員培訓計劃,培訓計劃應涵蓋數據中心運行和維護的各個崗位,培訓內容應滿足崗位操作的要求,并數據中心應對運行和維護人員進行崗前培訓及能力測評,在崗位數據中心應對員工培訓的執行情況進行管理,應將數據中心運行和維護人員的培訓記錄記入員工檔案,培訓記錄可納入績效考核和崗位調整的考核內容。日常運行維護與管理一般規定數據中心應建立運行、維護和管理的工作制度和流程,明確運行和維護的工作目標,并應按近期與遠期的工作目標制定工作計劃和任務書。數據中心應對工作計劃和任務的實施效果進行后評價,并應根據以租賃機柜和提供服務為主的數據中心應設立服務臺。服務臺應服務臺應根據運行和維護的系統、服務等級協議、服務咨詢的內容及自身管理要求對服務請求進行分類,并應將服務請求分派至相應的服務臺應跟進服務請求的處理過程,監督服務請求處理進展,執事件管理1~5級,事件分級宜符合表5.2.2的規定。表5.2.2 事件分級要求等級色標內容1級紅色零容忍事件2級橙色短時可容忍的事件3級黃色一定時間內可容忍的事件4級藍色商定時間處理的事件5級黑色時效性要求不高的事件當幾個事件同時發生時,應根據事件的等級、影響度和服務等級數據中心應建立事件處理的升級機制。在規定時間內未完成事件的處理或處理過程中引發新的事件時,應對事件進行職能性或結構性升事件處理人應調查和分析事件發生的原因,對在規定的時間內無對已查明原因的事件,應給出解決方案并執行;對暫時無法查明問題管理數據中心應建立問題管理流程和人員職責,應識別發生或潛在的變更管理數據中心應根據變更對運行的影響程度,將變更分為緊急變更、數據中心應建立變更管理程序,變更方案和變更時間應經過主管數據中心應記錄變更請求,并對變更請求進行評估,評估的內容數據中心應跟蹤變更的全過程,并控制變更的時間和應急回退的文件管理數據中心應建立涵蓋運行維護管理全過程的文件管理體系,并應數據中心應根據文件在運行維護管理中的作用,將文件應劃分為數據中心應根據文件的重要程度,對各類文件進行密級劃分。不數據中心應明確各類文件編制和維護的責任部門,每年應組織新數據中心應明確各類文件的保管部門,并應建立文件保管管理制度和使用流程。歸檔文件應每年進行一次完好性的檢查,電子文件宜做數據中心應每年進行一次對各類文件執行情況的檢查和回顧,對安全管理5.6.1的規定。表5.6.1 安全區域和等級劃分表等級安全區域范圍一級核心主機房、總控中心、應急指揮中心、生產系統變更室等。二級重要支持區、測試機房、進線間、動力環境監控室、消防和安防控制室等。三級普通行政管理區四級公共出入口、裝卸區、拆包區、生活區等。數據中心應明確安全管理職責,應根據基礎設施物理環境和運營數據中心的安全防范系統應連續運行,應監控和記錄數據中心的運行情況,視頻記錄保存時間不應少于三個月,門禁記錄保存時間不應A數據中心應配置專職安全保衛人員,安全保衛人員應設置在園區和數據中心出入口。核心區域、高壓配電室、消防和安防控制室、動力24h數據中心的人流和物流通道應暢通;應配備人身應急保護器材;每年應進行一次消防系統運行狀況檢查,并組織消防演練;每年應組織數據中心所有人員應佩戴身份標識。未經許可,嚴禁攜帶攝像、數據中心應按照安全區域的等級和運行維護人員的工作職責設置數據中心應指定部門負責安全區域的日常管理,每年應對門禁系統訪問權限進行審查。工作人員崗位變動時應修改門禁和系統操作的訪段嚴禁進行有風險的操作及施工。對有風險的操作應實行雙人臨崗,操質量管理數據中心應建立運行維護質量管理體系。質量管理應滿足安全運行、過程管理和可持續改進的要求。運行維護人員宜參加數據中心建設數據中心應制定運行維護的質量管理目標及質量保障計劃和任務數據中心應建立運行維護質量管理的監督、檢查及考核制度,監督和檢查運行維護服務工作的質量,制定量化考核管理指標,改進和完運行維護質量管理應包括在線維護、離線維護和風險控制,質量管理應貫穿運行維護全生命周期,并應通過測試、驗證、定期巡檢、預運行維護部門應在數據中心工程竣工驗收前組織測試驗證,完成A24h運行維護值班,每日每個班次現場巡檢124h保持正常工作狀態,不數據中心應按照日、月、季、年的時間要求完成基礎設施的健康檢查和預防性維護,并應根據健康檢查的結果分析和評估各系統運行狀數據中心應對主用機和備用機進行輪流循環運行操作、故障切換6應急管理數據中心應建立應急管理體系,在發生影響服務的事件時,應啟數據中心應急管理應包括組織架構、應急響應及流程管理、應急應急管理組織架構應由決策層、管理層和執行層組成,應包括應應急管理機構的工作人員應包括管理、運行維護、后勤、應急響應和災難恢復等各類人員。人員可為專職,也可為兼職,關鍵崗位的人員應有備份。多中心或多個分支機構的數據中心應設立不同級別的應急數據中心應建立應急人員保障機制,確保應急人員能夠勝任應急6.0.6表6.0.6 應急事件分類表分類涉及的事件公共災難危害事件不可抗拒的災難戰爭、恐怖襲擊、自然災害、公共衛生事件可抗拒的災害通信系統故障、病毒或網絡攻擊、市電或供水中斷基礎設施故障事件建筑火災、水患供配電供配電系統、備用電源系統故障環境保障空調制冷和動力環境監控系統故障消防火災報警和滅火系統故障安防安防系統故障電子信息系統故障事件硬件存儲設備、服務器等設備故障信息系統操作系統、應用系統軟件故障網絡故障網絡設備和傳輸線路故障操作故障人工操作引起的故障數據中心發生應急事件時,應啟動應急響應和應急處理流程,應數據中心應加強應急服務外包管理,應與服務外包提供商簽訂安7 成本與能效管理數據中心應建立運行和維護的成本與能效管理系統,并宜建立電子化管理平臺。運行和維護的成本與能效管理應貫穿數據中心運行和維容量管理應統計已用容量,并計算可用容量與已用容量之差,包括電力容量、制冷容量、空間容量,宜包括網絡端口和帶寬及電子信息數據中心應建立資產管理制度和操作流程。管理制度應包括資產2本標準用詞說明正面詞采用“必須”,反面詞采用“嚴禁”;正面詞采用“應”,反面詞采用“不應”或“不得”;宜”不宜”;“可。條文中指明應按其他有關標準執行的寫法為:“應符合……的規定或“……執行。引用標準名錄《數據中心設計規范》GB50174《數據中心基礎設施運行維護標準》GB/T51314數據中心運行維護管理標準條文說明目 次2 術 語 25組織架構與人員管理 26日常運行維護與管理 28一規定 28事管理 28問管理 29變管理 29文管理 30環安全理 31質管理 33應急管理 37成本與能效管理 412術語2.0.8事件包括硬件故障、軟件故障和服務請求三部分。硬件故障包括基礎設施和IT組織架構與人員管理經營模式是指數據中心定位是自用、外包或部分外包方式;管理模式是指集中式管理還是分散式管理;業務模式是指數據中心是用于生產、災備還是研發測試。數據中心組織架構宜包括:基礎設施運維部、電子信息系統運維部、監控中心、安全管理部、客戶服務部、行政管理數據中心運行、維護和管理崗位包括以下職位,并承擔相應的職責:數據中心運行、維護和管理模式包括:自主運行維護、全外包運對于人員的資格確認,可以采用多種方式,包括相關機構頒發的特定工作是指國家或行業規定的具有從業資格的工作,如高壓電4.0.8崗前培訓應包括運行維護理論、規章制度、技能和操作培訓,可以采用內部培訓,也可以采用外部培訓的方式。運行維護人員在新設施4.0.10日常運行維護與管理一般規定工作計劃宜按照年、季、月度制定,一般包括業務發展計劃、員工業務技能培訓計劃、產品投產、變更、巡檢、預防性維護、系統升級計劃與任務管理是一個編制計劃、執行計劃、檢查結果、總結和5.1.4通過對服務請求的分類,規范服務請求類別,合理安排服務請求的處理次序,調度相應的資源,加快服務處理的時效和提升服務質量,事件管理事件管理的目的是及時恢復發生事件的系統,減少事件對服務的數據中心應根據對用戶承諾的服務等級協議(SLA)確定“短時”和”為加快事件處理時效和提升服務質量,對同時發生的事件應進行排序,優先處理重要和緊急的事件。影響度是指事件影響的用戶范圍、()5.2.7記錄事件處理過程的信息包括:事件發生的時間、事件請求處理的時間、報告人和受理人、事件處理的派發時間和處理人接單時間,恢復的時間、事件處理的耗時、事件處理過程、發生事件的原因、解決方問題管理5.3.1問題管理包括主動性問題管理和被動性問題管理兩類活動。被動性問題管理的目標是找出導致已發生事件的根本原因,提出解決辦法;而主動性問題管理是通過跟蹤系統運行狀態和趨勢,分析潛在安全隱患變更管理緊急變更是解決突發的運行故障、排除重大生產隱患或因緊急原因無法提前安排而需緊急實施的生產變更;例行變更是常規的已知定期維護,且技術成熟、對運行無影響或影響可控的變更;標準變更在變更實施時會影響生產運行,部分變更請求需要用戶的配合,變更需要根據數據中心實際的運行狀態進行排期,選擇合理的時間實施的變更,降低變更的風險和對運行的影響。緊急變更需要設立授權機制,工作時間應采用一請求、一審批的方式,非工作時間可采用電話、微信、短信等電子審批方式,事后補辦審批手續;例行變更可采用定期預批準的方式,集中審核、審批;標準文件管理外部文件是指來自于政府、行業或上級主管部門下發的文件,包括各類決定、通知、標準等;內部文件是指數據中心內部為運行維護管理發布的各類文件。工作文件是數據中心為各部門運行維護管理建立的實施細則,包括各種規章制度、機構設置、人員任用、崗位職責、工作程序等。技術文件包括國家標準、行業標準、設備資料、產品圖紙、生一級文件為整體策略的綱領性文件,反映數據中心的基本管理策二級文件為程序文件,為開展某項具體運行維護活動所規定的途徑或方法,是針對某項具體運行維護活動的專門規定,是該項活動的操作指引。程序文件的內容一般包括制定本程序的目的、本程序適用的工作范圍和發放范圍、本程序的主要責任者的職責和權限,以及規定配合團隊的職責和權限職責、程序內容和要求的描述。三級文件為作業指導書或操作手冊,描述特定運行維護活動的具體操作步驟和方法,用于指導日常操作。三級文件應包括標準操作流程、四級文件是上面幾級文件執行后產生的記錄。記錄作為運行維護活動持續進行的證據,應防止未經授權的修改并規定記錄的保存期。5.5.5 公開””“”對過期的文件做回收和廢止處理包括:紙質版的文件廢止時應有廢止標識,并統一回收保存,如果需要銷毀,應用碎紙機進行銷毀;電環境安全管理環境安全管理體系包括:安全區域的劃分、安全等級的分類、安環境安全管理職責包括物理環境安全管理、人員操作和安全管理及安全培訓管理。數據中心安全防范系統包括視頻安防監控、入侵報警、出入口控制、電子巡查等,各系統之間應具備聯動控制功能。對設置安檢機和手人身應急保護器材包括空氣呼吸器或氧氣呼吸器、安保人員的防爆、防襲擊器材等,消防系統包括火災探測、報警、滅火、疏散通道、身份標識包括工作證、訪客證、臨時出入證等。未經許可,禁止5.6.8 訪問權限包括進出不同安全區域的門禁權限和訪問相關系統操作的權限。有效身份識別方式包括門禁卡、指紋、掌紋、人臉識別、身份證、臨時通行證等。對未授權但有需要進入安全區域的人員需要提出申IT梯、送排風設備、給排水設備;安防設備包括門禁、攝像、監控、消防等設備;IT設備包括服務器、存儲、網絡設備等;耗材和備件包括過濾器、潤滑油、除菌藥、制冷劑、皮帶、磁盤、板卡等;操作和維修設備包括儀器儀表、電腦、工具、材料等。危險品申請表應包括危險品的種5.6.13UPS5.6.17質量管理運行維護質量管理體系應體現在數據中心運行的全過程中,不斷優化和改進數據中心各系統的運行維護質量,確保各系統安全穩定地運行,并通過流程優化,提升運行維護服務效率和用戶滿意度。運行維護人員參加設計、施工等建設期間的質量管理,有利于數據中心投產后的數據中心應根據服務內容制定運行維護的質量管理目標,管理目標應包括系統穩定運行的可用性、服務響應和解決時效、應急保障的能設備和運行系統的保障能力和服務質量。質量保障計劃是保證質量管理目標實現的重要手段,應圍繞質量管理目標制定保障計劃。保障計劃包括數據中心的組織架構、職責、管理權限、工作制度、質量管理監督檢查機制包括:運行值班、交接班、任務工單、巡維護的質量管理包括提前對設備進行預防性維護和保養,以及對運行中發現的問題及時解決,確保系統中的所有設備保持良好狀態。風險控制的質量管理是通過主動查找、提前預防、過程控制、應急預案、應急演習等全過程控制,提前規避和控制可能出現的問題和風險,杜絕運營事單機或單系統測試驗證包括高低壓配電、空調、弱電、消防等設備或系統的開機和單機運行;系統聯調測試驗證包括高低壓配電、發電和持續正常運行的能力;故障模擬驗證是通過模擬配電、不間斷電源錯能力。技術文檔包括規劃和設計資料、施工竣工圖、設備清單和采購合同、設備出廠技術說明書、操作手冊、維護手冊、各系統設計說明、驗收測試文檔、報審資料、質保期各廠商聯絡方式和技術支持人員的信息等。界面劃分主要是指數據中心與外部能源、網絡等供應方的分工及健康檢查是在數據中心投產運行后定期對設備和系統的運行狀況及性能做健康性檢查和評估。通過自動監控系統和現場巡視、預防性維護,主動查找,發現和解決設備和系統的故障和隱患。健康檢查、維護設施的運行數據,包括運行環境、設備外觀、指示燈、運行狀態,電壓運行參數、容量、設定值、日志、歷史記錄,形成月度的檢查分析報告,對處于冷備的設備(如發電機、空調等)可進行離線檢查,也可與設容;IT主用機與備用機輪流循環運行是確保每臺設備工作和休息時間保持均衡;故障切換與恢復操作是將線上運行的設備轉為線下維護,維護完成之后再轉為線上運行;系統運行參數和運行模式調優操作是對不同負載、不同季節進行系統運行參數和運行模式的調整,保持系統運行在安全、節能、高效的工作狀態。系統運行參數和運行模式調優應貫穿數應急管理6.0.3 應急領導小組是數據中心應急管理的決策機構,應由數據中心的應急管理小組應由業務、技術、后勤等相關部門負責人組成,在應急領導小組領導下開展工作,負責管理和協調應急管理的工作,主要職責包括:組織制定應急管理策略、計劃和預案;組織編制經費預算和應急設施建設;組織實施應急計劃和應急預案的演練;協調內外部資源;指揮和協調應急響應與恢復工作、重建與回退工作;負責信息通報和溝通、負責客戶的解釋和安撫工作;監督、檢查和總結應急管理的工作。應急技術與執行小組應由數據中心專業技術人員、運行維護人員和服務供應商組成。組長由中心分管技術的高層管理人員擔任,負責突發事件的處理和災難恢復的具體實施工作,主要職責包括:提出應急需求和策略建議,實施應急環境建設,提供應急的專業技術支持,編制各類應急保障小組應由數據中心的綜合管理、人力資源和后勤保障部門的人員組成。組長由中心綜合管理部或后勤管理部的負責人擔任,負責應急事件處理過程中的后勤保障。主要的職責包括:負責應急處置人員通信聯絡保障、交通和食宿安排,負責應急處置場所的安保,建立與公安和消防的應急聯動機制,負責數據中心外部的供電、供水、供油、供氣、供暖、通信等事宜的溝通與協調。6.0.7應急響應流程包括:接收和記錄應急事件信息;分析和評估應急應急處理流程應包括:采取必要的控制措施,最大限度地

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論