




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
機房應急預案
機房應急預條合集15篇
在現實的學習、工作、生活中,有時會出現一些意料之外的事件
或事故,為了減小事故造成的危害,通常會被要求事先編制應急預案。
那么優秀的應急預案是什么樣的呢?以下是店鋪精心整理的機房應急
預案,歡迎大家分享。
機房應急預案1
機房是我單位的重要場所,重要儀器、設備相對集中,一旦發生
事故,會造成嚴重后果。為此特制定本應急預案。
一、觸電
(1)一旦發生觸電事故,應迅速安全切斷電源,切忌直接接觸
觸電者。
(2)即刻撥打緊急電話120并通知相關領導,同時開展現場應
急救護。
二、火災
1、報警程序:
即刻通知領導及相關部門,根據火情大小如需報警立即就近用電
話或手機報告消防中心(電話119)
2、組織實施:
機房管理員一旦發現火情后,應即刻切斷電源,并使用滅火器撲
救起火設備。
三、空調漏水
若空調系統出現滲漏水,應立即安排停用故障空調,清除機房積
水,并及時聯系設備供應方處理,同時臨時用電扇進行降溫。
四、設備發生被盜或人為損害事件
(1)發生設備被盜或人為損害設備情況時,使用者或管理者應
立即報告中心負責人,同時保護好現場。
(2)中心負責人接報后,通知保衛處,一同核實審定現場情況,
清點被盜物資或盤查人為損害情況,做好必要的影像記錄和文字記錄。
(3)當事人應當積極配合公安部門進行調查,并將有關情況向
領導匯報。
五、機房停電
(1)接到長時間停電通知后,應及時發布相關信息,部署應對具
體措施。
(2)如遇臨時停電,且停電時間在3小時之內,管理員要檢查
UPS是否正常工作,以確保機房設備的'正常運行。。
六、網絡故障
(1)發生通信線路中斷、路由故障、流量異常等故障后,網絡管
理員應及時查清通信網絡故障位置,隔離故障區域,組織相關技術人
員檢測故障區域,逐步恢復故障區與服務器的網絡聯接,恢復通信網
絡,保證正常運轉。
(2)事態或后果嚴重的,應及時報告領導并請求協助解決。
七、不良信息和病毒事件
(1)發現不良信息或網絡病毒時,管理員應立即斷開網線,終止
不良信息或網絡病毒傳播,并報告。
(2)中心負責技術人員應采取隔離網絡等措施,及時殺毒或清除
不良信息,并追查不良信息來源。
(3)事態或后果嚴重的,應及時報告相關領導以及相關部門。
八、服務器軟件系統故障
(1)發生服務器軟件系統故障后,在確認安全的情況下,重新啟
動故障服務器系統;重啟系統成功,則檢查數據丟失情況,利用備份
數據恢復;
(2)若重啟失敗,應立即安排備份服務器啟用,并請求技術人員
支援,作好技術處理。
九、注意事項:
第一、機房管理員要加強日常監控,及時處理、消除及上報安全隱
患。
第二、備齊安全相關裝備。
第三、及時做好備份。
機房應急預案2
核心機房電力的保障一直是維護體系的頭等重要事項,通過實施
應急發電演練,建立了可靠的應急預案機制,最大限度的降低電源中
斷對網絡傳輸質量的影響。現分享核心機房電源中斷應急預案,希望
分公司盡快建立一套統一指揮、職責明確、反應迅速、處置有力的機
房安全保障機制。
組織架構:
責任領導、工程維護、網絡監控、網絡運維、質量管理等相關人
員。
機房電源系統說明:
1、機房電力是兩路三相四線制供電,進線線纜規格為:
RVV50*4+16*l銅芯護套線。
2、機房電源系統采用三級防雷系統,三級防雷分別位于電源進線
端、UPS輸入前端。
3、機房現有兩臺60KVA-UPS電源,均處于正常運行狀態。
4、機房現有設備機柜已編號,均通過UPS電源和市電供電,每
個機柜有獨立的20A空氣開關。空調、墻壁插座開關、應急燈、照明
等都是單獨空開接市電。
5、運行中的UPS電源所帶負荷,在逆變運行狀態下能正常工作
約4小時(已經過UPS放電測試)。
一、核心機房電源中斷預案
1、在接到停電通知的情況下:
1)計劃性停電通知要確保綜合部、工維機房管理部對口人接到通
知(提前將對口聯系人備案在物業處),機房管理員接到計劃停電通知后,
升級到調度中心進行信息發送,同步進行郵件通知相應應急小組成員。
并與負責組長及責任領導電話告知,確保已經接收到本次停電的時間
及可能發生的情況。
2)維部進行發電應急預案小組成員通知,提前做好機房發電預案
要求的準備工作,將相應的發電機、連接線、人員安排到位,各司其
職,隨時待命現場,做發電準備工作。確保停電時刻的電力安全及機
⑵進行客服調度系統的設備工作運行系統檢查,特別語音系統級
坐席電腦,是否有問題,如發現工作系統有異常,及時與運維應急小
組成員溝通,進行檢查處理。
⑶實時關注故障工單流程進度登記,配合應急小組進行人員調度
通告。
4)工維部應急工作流程:
⑴機房管理員第一時間往停電現場趕,同時進行電話溝通供電公
司、物業方等,咨詢停電原因,是屬于計劃性還是突發性停電,預計
停電時長,將咨詢清楚的結果反饋到應急小組成員中,電話聯系物業
溝通好需要發電需求申請。
⑵工維應急小組組長接到時間后第一時間往停電現場趕,同時進
行發電應急小組成員調度,安排第一時間到場工作開展,并升級通報
告知主管領導,對口集團維護中心上報信息。
⑶工維應急小組成員接到停電時間后第一時間往停電現場趕,要
求30分鐘內必須到場(住機房附近的人員往現場去,較遠同事可以進
行打車往現場去),先行到處同事配合網管、運維同事啟動做好應急發
電前的準備:連接線布放、接續、發電機發電前檢測油/電/水路檢查,
確保正常。確保一切就緒后,確認可以進行發電操作后,按照發電操
作流程進行發電恢復市電。
⑷網管將監控到停電的相應信息及級別同步發送到運營質量管理
部調度崗,由調度崗將相應信息進行工維、運維、網絡關聯同事進行
信息告知,同時報工維主管領導知悉。
5)應急機房發電操作流程:
⑴機房用電系統包括四方面:空調制冷、主/備UPS主機、照明系
統、客服調度系統。
⑵發電前考慮4方面系統設備用電功率情況,為保障發電機帶動
的正常,不能進行同步供電,要區分優先恢復的步驟實施,確認發電
機的工作正常。在發電前將需要供電的〃空調制冷、主/備UPS主機、
照明系統、客服調度系統〃的市電輸入主開關關閉。防止同步啟動時
發電機的無法供電保證。
⑶啟動發電機,檢測發電輸出電流通斷,待發電機運行穩定后。
第一步啟動空調制冷系統的市電輸入開關,運維應急小組成員重
新啟動空調主機(空調因為市電恢復后需要重新啟動)觀察空調制冷工作
是否正常。
第二步啟動主UPS設備的市電輸入開關,觀察發電機運行穩定情
況,主UPS主機工作穩定情況,網絡設備的工作正常與否。
第三步啟動客服系統的市電輸入開關,包括(客服坐席電腦、UPS
設備、空調制冷等),觀察發電機運行穩定情況,設備恢復工作情況。
第四步啟動備UPS設備、市電照明的市電輸入開關,觀察發電機
運行穩定情況,備UPS主機工作穩定情況,網絡設備的工作正常與否。
⑷發電機啟動1市電輸入正常后,網管將降溫系統的抽排風設備
關閉,與運維同事進行所有設備的運行進行全面的檢查,確保設備已
經是運行正常。
⑸發電機發起市電正常后,工維應急小組安排專人現場值守,及
時關注發電機油量情況,同時與油品供應商確認油品配送要求及時間
要求,并實時與供電部門確認市電恢復時間。
6)停電過程中突發事項預防:
⑴網管在停電時進行機房確認運行中的UPS工作組、設備組工作
狀態。主/備UPS工作切換是否正常,在市電中斷時UPS是否已經開
始進行供電保護。
⑵值班網管對機房中的所有設備進行全面檢查,確保所有的設備
已經是有主備供電,市電中斷后UPS已經正常保障設備工作。同E寸對
機房的溫度進行觀察,溫度是否突然升高。
⑶停電后,UPS處于逆變工作狀態,當班人員要每隔15分鐘觀察
一次UPS的蓄電池容量、帶負荷情況、機房環境溫度,盡量使蓄電池
容量大于60%,帶負荷小于85%(因為已經有自購發電機應急,盡快要
求短時間發起電,減少UPS的放電過度)。
⑷發現機房環境溫度大于26℃O當以上指標不能保證時,要及時
向機房管理員匯報,同時上報責任領導知悉,網管預案小組成員經過
慎重討論,適時采取關閉不必要網絡的網絡設備、加強通風降溫等措
施盡量延長關鍵設備運行時間。
機房應急預案3
沙溝中學實施營養午餐突發斷水斷電等意外事故處理應急預案水、
電是實施營養午餐改善計劃學校食堂正常供餐必備的最基本的條件,
是食品安全工作的重要組成部分,也是保障師生正常生活的重要基礎。
斷水斷電等意外事故在學校時有發生,為進一步加強學校食堂水、電
等設施的管理,保障學校斷水斷電等意外事故發生時能正常為學生提
供圖紙等的營養午餐,維護學校正常的教育教學秩序,特制定本預案
一、組織機構
(-)成立學校突發斷水斷電等意外事故應急成立領導小組。
組長:王鵬程
副組長:馬缸治
馬志銳
組員:馬強
呂宗仁
王繼祖
陸巖
馬萬喜
各班主任
指揮部的工作職責是:
(1)啟動學校斷水斷電等意外事故處理應急預案。
(2)領導、組織、協調事故應急處理工作。
(3)負責事故處理事項的決策。
(4)負責上報與事故相關的‘重要信息。
(5)審批學校應急處理工作報告。
二、常規管理
(一)、學校組織相關人員定期和吧不定期深入學校對學校可能
斷水斷電等意外事件的隱患,即使做查漏補缺,做到早發現、早報告、
早治理,不能因為人為因素斷水斷電而停止正常營養午餐。
(二)、學校要與當地政府、水保站、農電站等相關部門保持聯
系,協調學校的用水和用電工作。
(三)、用水緊張或缺水學校,要想辦法做好學校用水的儲蓄工
作,并邀請相關部門對學校用水質量檢測,確保水質量好,無安全隱
患。
(四)、做好學校食堂用電設施的改造工程,指定專人經常對學
校食堂用電設施進行檢修,維護。
(五)、對卻因客觀原因二造成的斷水斷電等意外事故時應立即
啟動該預案。
三、建立報告機制
1、對學校發生臨時斷水斷電等意外事故是學校不能對學生實施午
餐時,學校從業人員向管理人員報告,管理人員向校長報告,校長協
調有關人員檢查檢修,對于用電設施必須有專業人員進行檢修,確保
短時間內供水供電。
2、對學校發生長時斷水斷電等意外事故時,學校從業人員向管理
人員報告,有管理人員檢查檢修,同時上報縣意外事故應急處理協調
領導小組。
四、事件處理
L各級領導小組負責人接到報告后,及時組織相關人員趕赴學校
開展事故處理工作
2、學校應及時對學生做好解釋說明工作,同時采取科學合理的辦
法通過各種途徑解決學生營養午餐
3、學校迅速與家長取得聯系,通過告示等形式給家長做好解釋工
作,去的家長的諒解,保證廣大師生及家長在事故發生和過程中的知
情權,嚴防事態擴大給學校教育工作造成不良影響。
4、協調各方面力量做好學校穩定工作,保障學校正常的教育教學
秩序
5、學校要及早購置手搖鼓風機等應急設備,在學校斷電時能立即
啟用。
6、主動和有關部門聯系,及時購買等價等值、衛生、營養、可口
的熟食品,如牛奶、面包等,及時為學生供應午餐。
7、斷水斷電事故處理結束,要認真總結分析事故發生原因,提出
改進意見,完成處置總結報告,報送縣營養辦。
五、責任追究
對斷水斷電突發公共事件的應急處置工作中實行領導責任制和責
任追究。對有突出表現的個人予以鼓勵和表彰;對負有直接責任個人
依據有關法規和規定給予行政處分;;對處理不當,貽誤時機,造成
惡劣影響的直接責任人,要嚴肅追究責任。
六、本預案由學校突發斷水斷電等意外事故一見處理工作領導小
組負責解釋。
機房應急預案4
第一條機房內禁止明火禁止吸煙,機房內的所有設備需要定期維
護并做巡檢記錄、根據機房實際情況進行清掃工作。
第二條機房網絡設備維護由網絡管理員進行,如發現機器故障應
及時排除故障,在遇到硬件三包范圍內的故障時,應及時聯系供應公
司上門或將機器送供應公司維修;
第三條酒店員工必須嚴格遵守有關機房、設備及系統運行管理規
定,不得在機房內從事與系統管理、運行維護、系統安裝和調試等無
關的工作;
第四條做好防火、防雨、防濕、防盜工作,注意用電安全;機房
內的環境要每周檢查溫度、濕度、電力系統、是否滿足機房相關的標
準要求。
第五條機房內的交換機和服務器系酒店運營的關鍵設備,任何人
不得自行配置或更改其系統參數。
第六條要做好機房的安全工作,對服務器的各種帳戶、密碼嚴格
保密。
第七條應及時做好數據的備份工作,保證在系統發生故障時,數
據能夠快速、安全的恢復。所有備份數據不得更改,并要求做到本地
和異地分別備份保存。
第八條為了確,呆本酒店網絡正常運行,每日對機房內的設備進行
巡視,主要著重于服務器及網絡設備運行正常與否。
L對機房里的溫度進行調節,如室內溫度過高,調節空調對機房
進行有效的通風。
2、查看交換機與防火墻及接入設備的工作狀態,如發生異常,對
其進行及時有效的維護。
3、監測網絡運行狀況。
第九條除本酒店網絡管理員外,公司其他人員因工作需要進入機
房的,需網絡管理員陪同下進入機房。
第十條嚴禁帶外單位人員或無關人員進入機房,確因工作需要,
如:系統故障診斷和處理,設備維修維護、系統或設備安裝等進入機
房,必須由網絡管理員陪同進入,配合項目的.實施。
第十一條進入機房的設備應在進入機房前拆除外包裝,以保證機
房環境的清潔和安
第十二條嚴禁攜帶易燃、易爆、易腐蝕等危險性物品進入機房。
第十三條機房內提供的UPS電源只允許為主機、服務器、網絡及
存儲等核心設備供電,嚴禁安插其他設備,增加UPS電源供電負荷。
第十四條嚴禁擅自切斷供電系統,確因工作需要斷電時,首先應
做好相應準備工作,經部門領導批準,然后給所有部門發放斷電或斷
網通知,最后方可實施。
第十五條機房內安裝用電設備或有用電需求的項目時,必須經過
專業人員或設備提供商的安裝工程師進行現場勘查,經確認在滿足或
符合要求后工程才能實施。
機房應急預案5
第一條:機房意外停電后,首先確定停電的范圍以及受影響的設
備范圍。
第二條:確認停電的范圍為本公司或本機房,應立即聯系工機科
電話匯報。估算電力可能恢復的時間,并通知直接上級。
第三條:如果確認停電的時間在1個小時內,可以在UPS正常供
電的時間內,等到電力恢復。如果不能確認在2個小時內恢復供電,
需及時到達現場。做好各設備的電源停電準備。在UPS供電達1.5個
小時后,嚴格按操作手冊停掉存儲和各應用服務器的電源,最后停核
心交換機和路由期。等待電力恢復,電力恢復供電后轉第七條執行。
如果確認停電的范圍僅在于本機房電源故障,立即匯報給機房電源維
護負責人。
第四條:機房維護負責人將掉電的電源柜總空開和分空開的狀態
處于下電狀態。并向直接領導匯報,馬上聯系相關廠家,如有可能請
廠家立即到現場支持。第五條:將掉電的所有的設備電源狀態處于下
電狀態,以防止電源柜加電對設備的.沖擊。
第六條:等各廠家和相關的人員到齊后,商議設備恢復時因注意
的事項,并形成相關文檔。
第七條:電力室恢復供電后,先不要急于給電源柜加電,等待
10-20分鐘后,再開始給電源柜加電,以防止供電不穩或再次掉電。
第八條:供電正常后,確定設備處于下電狀態后,打開電力柜的
總控開。第九條:杈據設備加電順序,啟動分項空開。第十條:設備
加電順序,網絡交換類設備正常后再給磁盤陣列柜加電,存儲狀態檢
查正常后,啟動主機(以上各設備務必按操作手冊的啟動順序上電)。
第十一條:設備啟動正常后,開始啟動數據庫。第十二條:數據庫啟
動正常后,開始啟動中間件服務器。第十三條:中間件服務器正常后,
啟動應用程序。
第十四條:機房設備進行全面點檢,確認所有設備運行和服務正
常。
機房應急預案6
機房消防應急預案
為使信息機房發生火災事故時,當班人員能鎮靜有序地處置事件,
特制訂本預案,請各成員認真學習,熟悉應急處置程序,提高全員的
應急能力,一旦發生突發事件,盡最大努力保證員工人身安全和減少
損失。
起火原因一般有明火管理不慎;電氣設備管理、使用不當;縱火
等原因。
預案一:當聞到燒焦氣味時
當班人員發現信息機房內有冒煙現象或聞到燒焦氣味時,可能是
某處陰燃處于起火階段或電源超負荷發熱引起,容易引發火災,當班
人員要立即查明原因和地點,針對不同情況,采取迅速將火源撲滅或
關閉電源總開關、隔離火源附近易燃物、關閉窗等措施,消除起火隱
患,防止引了火災。事后立即向安保部門報告,并做好現場保護工作
和防止起火點復燃,不得隨意離開現場和將事故隱瞞不報。預案二:
當班時發現起火或冒出濃煙
由于起火源隱蔽或其他突發原因未能及時發現和消除起火隱患,
釀成明火和冒出濃煙,燃燒面積不大,就是火災的初起階段,當班人
員發現起火或冒出濃煙時,切忌驚惶失措,要沉著、果斷,會同其他
當班人員分工協作,迅速查明原因組織撲救,當火執已無法控制時處
置辦法:
一是指定專人立即拔打〃119〃火警電話報警和向上級保衛部門報
告,并向本部門和周圍的'人及群眾喊叫報警;二是組織本單位、部門
在場的人員有序地投入撲救工作,充分利用消防栓、滅火器、水桶等
器材滅火,不能消極等待消防隊到來,而錯過滅火良機,力求將火撲
滅或控制火勢蔓延,不能只顧個人安危而逃離火場
三是大聲呼喊請求鄰近單位及群眾的支援。
四是在組織滅火同時,要立即組織人員疏散和轉移物品中,特別
昌易燃、易爆物品和易受到火舌威脅的現金、重要憑證要及時轉移到
安全地點,并派人員守護,確保安全。
五是滅火后要注意保護現場,維護好秩序,以利于消防部門調查
分析火災原因。注意事項:
報警人員報警時要向消防部門講清楚起火地點、單位、起火的種
類和火勢大小,報警后即到街道或十字路口迎接、弓I導消防車輛的到
來;撲救人員在消防人員到來后,要立即向消防指揮人員講清火場內
存放有何種物資和貴重物品,火場內是否有爆炸、劇毒物品,并協助
消防部門維護好現場秩序。自行撲救火災時要留心觀察火勢和環境,
防止被火圍困、煙氣中毒、墜物砸傷等,在確保自身安全的情況下撲
救火災。
機房應急預案7
中心機房突發事件應急預案
第一條
機房突發事件包括網絡設備或服務器故障、自然災害(水、火、
電等)造成的物理破壞、人為失誤造成的安全事件等等。針對突發事
件的預防措施如下:
1.建立安全、可靠、穩定運行的'機房環境,防火、防盜、防雷電、
防水、防靜電、防塵;建立備份電源系統;加強所有人員防火、防盜
等基本技能培訓。
2.服務器采用可靠、穩定的硬件設備,落實數據備份機制,安裝
有效的防病毒軟件,及時更新升級掃描引擎;加強對局域網內所有用
戶和信息系統管理員的安全技術培訓I。
第二條
機房漏水應急預案如下:
1.發生機房漏水時,第一目擊者應立即通知機房管理人員。
2.若空調系統出現滲漏水,機房管理人員應立即安排停用故障空
調,清除機房積水,并及時聯系設備供應方處理,同時啟動備用空調,
必要情況下可臨時用電扇對服務器進行降溫。3.若為墻體或窗戶滲漏
水,機房管理人員應立即采取有效措施確保機房安全,同時安排通知
辦公室,及時清除積水,維修墻體或窗戶,消除滲漏水隱患。
第三條
機房火災應急預案如下:
1.完善機房環境,確保機房具備二氧化碳滅火器;禁止攜帶易燃
易爆物品進入機房。2.機房管理人員應熟悉機房內部消防安全操作和
規則,了解消防設備操作原理,掌握消防應急處理步驟、措施和要領,
懂得滅火的方法,會撲救初起火災,并定期組織滅火演習。3.一旦發
生火災,迅速切斷機房電源,避免災情的擴散,并迅速撥打物業管理
和119火警電話。
4.等待消防車到來期間,應組織物業保安或工作人員在保證安全
的前提下滅火,應急領導小組應在第一時間內集中所有二氧化碳滅火
器,抓住時機,盡可能的把火撲滅。
5.配合消防部門調查事故原因,對造成的損失和起火原因做好記
錄,以便進行災后總結。
第四條
雷擊事故應急預案如下:
1.遇雷暴天氣,機房管理人員在下班后應及時關閉所有服務器,
切斷電源,暫停內部計算機網絡工作。
2.雷暴天氣結束后,機房管理人員應及時開通服務器,恢復內部
計算機網絡工作,對設備和數據進行檢查。出現故障的,事發部門應
將故障情況及時報告機房管理人員。
3.因雷擊造成損失的,機房管理人員應會同相關部門進行核實、
報損,并在調查工作結束后一日內書面報告領導。
第五條
設備防盜被盜或人為損害應急預案如下:
1.機房管理人員每日查看、清點設備并鎖好機房大門。
2.機房管理人員每日檢查錄像監控服務器狀態,確保監控畫面正
常,并檢查每日錄像正常性、完整性。
3.發生設備被盜或人為損害設備情況時,使用者或管理者應立即
報告相關負責人,同時保護好現場。
4.機房維護人員接報后,通知保安及公安部門,一同核實審定現
場情況,清點被盜物資或盤查人為損害情況,做好必要的影像記錄和
文字記錄。
5.事發單位和當事人應積極配合公安部門進行調查,并將有關情
況向機房管理人員匯報。
弟八條
機房停電應急預案如下:
1.接到停電通知后,機房管理人員應及時通過辦公系統、電話等
發布相關信息,部署應對具體措施,要求用戶在停電前停止業務、保
存數據。
2.機房管理人員每日檢查UPS電源的狀態,確保在突發停電E寸,
UPS電源能自動供應服務器正常工作半個小時,保證員工工作的數據
及時保存。
第七條
通信網絡故障應急預案如下:
1.發生通信線路中斷、流量異常等故障后,員工應及時通知機房
管理人員。
2.機房管理人員在接到報告后,迅速組織相關技術人員檢測故障
區域,并作相關故障處理,必要時通知通信網絡運營商查清原因;逐
步恢復故障區與服務器的網絡聯接,恢復通信網絡,保證正常運轉。
3.應急處理結束后,機房管理人員應在一日之內提交故障分析報
告,以便備案。
第八條
服務器故障應急預案如下:
1.機房管理人員每日檢查服務器狀態,檢查郵箱服務器狀態,確
保系統運行的完善。
2.機房管理人員定期備份服務器數據,并將備份資料刻錄成光盤
或拷貝到移動硬盤。
第九條
1.發牛機房突發事件后,機房管理人員應采取有效措施開展先期
處置,恢復信息網絡正常狀態。應急處置工作結束后,機房管理人員
對事件發生原因、性質、影響、后果、責任及應急處置能力、恢復重
建等問題進行全面調查評估,根據應急處置中暴露出的管理、協調和
技術問題,改進和完善預案,實施針對性演練,總結經驗教訓,整改
存在隱患,組織恢復正常工作秩序。
機房應急預案8
1.主楣口運維管理制度簡介
超級計算機是功能最強、運算速度最快、存儲容量最大的一類計
算機。目前只有少數國家掌握研發技術,系統造價非常昂貴,多用于
國家高科技領域和尖端技術研究,是國家科技發展水平和綜合國力的
重要標志。上海超級計算中心作為上海信息港主體工程之一,國家和
上海市政府投資先后引進神威-1超級計算機、神威-64P集群計算機、
曙光4000A超級計算機系統并投入商業化運行。
上海超級計算中心自20xx年正式開通至今,
這些高性能計算機系統已安全、穩定運行七年多時間,上機用戶
取得了豐碩的科研成果和社會效益。在這七年中,為保障這些高性能
計算機系統安全、穩定、不間斷地運行,技術支持部在中心引進第一
臺高性能計算機--神威-I超級計算機系統的同時,建立了機房應急預案、
運行1己錄、設備運行參數等基礎運維制度,在二期引進曙光4000A超
級計算機系統過程中,不斷完善原有運維制度,并針對該主機系統特
點編寫了大量操作方法和應急預案。
中心自20xx年獲得IS027001(BS7799)信息安全認證以來,
技術支持部根據其要求規范了文檔體系建設,形成了機房管理制度、
應急預案、操作方法、運行情況記錄的四大類運維文檔。
正是這些運維管理制度的不斷完善和有效執行,才確保了資產價
值高、服務對象廣、社會影響大的中心主機系統安全、穩定運行,保
障重點項目、用戶服務的連續性。
2.應急預案重要性
上海超級計算中心機房運維管理文檔劃分為機房管理制度、應急
預案、操作方法、運行記錄共四大類。
應急預案在應急系統中起著關鍵作用,它明確了在突發緊急情況
發生之前、發生過程中以及剛剛結束之后,誰負責做什么、何時做,
以及相應的策略和資源準備等。它是針對可能發生的重大事故,按照
其影響和后果嚴重程度,在應急準備、響應、操作各個方面預先做出
的詳細安排,是開展及時、有序和有效事故應急工作的行動指南。因
此,應急預案在這四類運維管理文檔中處于最為重要的地位。
3.應急預案分類
應急預案按重要性和事件種類,可以劃分為消
防預案、斷電預案、空調預案、其他預案共4種,預案各文檔之
間彼此獨立又互為關聯,具有非常強的可操作性。制定預案的指導原
則是盡一切可能,最大限度地確保向用戶提供的服務不中斷。在緊急
事件發生的情況下,保證核心設備連續運行,避免存儲數據丟失。在
事件處置完成后,能快速恢復高性能計算服務。
3.1消防預案
消防預案是主機房最重要的應急預案。該類預案根據《上海超級
計算中心滅火和應急疏散預案》的原則并結合主機房主機設備和消防
設備的運行特性而制定。主要由《主機房消防應急預案》和《主機房
氣體噴淋消防系統啟動撤離及處置應急預案》2個文檔組成。
消防應急預案:該預案著重規范了火警事件發生后,所有主機維
護人員如何根據所屬區域和現場情況,判斷和選擇正確的處理方法,
同時配合中心物業人員處置,降低事件帶來的影響。
對于設備發生煙霧,主機維護人員協同物業人員尋找煙霧點予以
切斷相關區域電源;當設備發生可以控制火情,協同物業人員滅火;
當主機房發生火災而無法控制,應采取施救方法等措施。
氣體噴淋預案:該預案描述主機房氣體噴淋系統啟
動的響應和確認并具體規定了撤離機房路線、善后處置。
這兩個預案中,消防應急預案作為消防預案
的主體,涉及到如何處理與消防有關情況的各個方面。氣體噴淋
預案是主機房發生重大火災時應對的最終滅火手段和人員撤離引導方
法。
3.2斷電預案
斷電預案的重要性僅次于消防預案。該類預
案根據中心供配電系統實際情況和各種斷電影響范圍下對主機運
行的最小保障要求而制定的。主要由
《主機房斷電應急預案》、《曙光4000A超級計算機系統緊急關
機操作方法》、《曙光4000A超級計算機系統雙路斷電關機操作方法》
等多個文檔組成。
主機房斷電應急預案:該預案用于斷電情況
下,主機維護人員如何與中心物業部門聯系控制主機房供電情況,
并且負責對主機系統運行受斷電影響程度做出正確判斷。指導維護人
員按影響程度,分別選用預案中對應的操作方法。本預案在所有斷電
預案中起指導思想作用。緊急關機操作方法:該預案制定了主機系統
在緊急情況下,最快速度關機的操作步驟。主要用于發生煙霧、明火
或消防、斷電預案需在數分鐘內關機斷電的事件。
雙路斷電關機操作方法:該緊急操作預案主要用于在外界雙路供
電全部中斷情況下的操作。
該預案的關機原則是:根據實際電力供應考慮操作步驟,寧慢勿
快,在時間允許的情況下,最大程度保證存儲節點、SAN和SCSI存儲
設備、工程用戶的計算節點的運行,盡可能減少關閉范圍,以確保能
在恢復供電的情況下,主機盡快恢復正常運行狀態,減少影響范圍。
3.3空調預案
超級計算機系統在運行中消耗大量電能,在
提供高性能的計算能力同時產生大量的熱量,必須采用專用空調
系統,以保持主機系統適當的溫、濕度、空氣潔凈度等運行環境需求。
因此,專用空調系統與主機系統密切相關,空調預案是主機房必備的
應急預案。
制定該預案的原因在于,斷電情況下,空調與主機系統存在互相
牽制的現狀。主機和空調系統均為外界雙路供電,主機系統配有UPS
不間斷電源系統,而空調系統無UPS支持。在雙路停電情況下,主機
系統可獲得UPS電池組支持運行若干分鐘,空調系統無UPS支持只能
停機。由于在無空調冷卻情況下,主機系統會在短時間內積聚大量熱
量導致超過運行警戒溫度,主機系統在有可供電余量的情況下,仍將
被迫關機。因此,確保空調中斷情況下的主機運行環境是該預案的制
定原則。
預案根據各臺主機配備的空調系統特點制定,由《曙光機房空調
系統故障應急預案》和《神威機房空調系統應急預案》2個文檔組成,
這里僅介紹曙光機房空調系統應急預案。
該預案的第一步:考慮增強主機系統散熱效
果,采用打開主機機柜前后門,和機房周邊木門,在通風道上布
置有UPS支持的應急風扇,形成空氣對流,帶走熱空氣,從而增強主
機系統散熱效果,降低升溫速度。
該預案的第二步:在采取上述措施并持續升溫到一定溫度之上的
情況下,考慮緊急關閉部分或全部計算節點,減少熱量生成,確保主
機系統的核心存儲和網絡系統不受影響,確保空調系統修復后,主機
系統能快速恢復運行。
3.4其他預案
除了固定的三類預案之外,技術支持部還根據主機系統實際運行
中出現的各種意外情況,隨時制定具有針對性的預案。
如《大樓頂棚坍塌應急操作方法》的制定,就
是由于20xx年1月連續發生雨雪等災害性天氣,中心大樓頂棚大
量積雪且難融化,物業預計存在情況繼續惡化,有發生頂棚坍塌事故
的可能,一旦發生將影響一樓主機運行。
針對該突發的隱患,中心技術支持部制定應急操作方法,對維護
巡查頻度范圍、漏水可能發生位置、如何處理受漏水影響的主機設備
等操作步驟進行嚴格界定。即使在最后,中心大樓頂棚經受住災害性
天氣的考驗,該預案并未發揮作用,這正體現了應急預案的備而不用
的特點。而且通過各種意外
情況的迅速分析、應對和實踐操練,不斷鍛煉主機維護隊伍,使
之走向成熟。
4.在實際案例中,應急預案的作用
在主機系統年復一年的運行中,我們希望這些設備正常穩定運行,
應急預案永遠不會被使用,然而在實際運行中,總免不了因突發事件
執行應急預案。
而每次突發事件是檢驗應急預案制定是否科學、有效的最好證明。
4.1雙路斷電,UPS正常運行案例
20xx年8月某天,因打雷導致供電一路跳閘自動換至另一路供電,
曙光機房2臺空調掉電。
主機維護人員立即按應急預案操作,電話通知物業人員恢復空調
運行,恢復過程中所有空調相繼出現高溫報警,機柜液晶屏平均溫度
35度,開啟全部曙光機柜前后門,打開神威-曙光玻璃門并調集應急電
扇,于12:45恢復正常。
12:50再次出現雙路供電中斷,曙光空調因無
UPS支撐全部斷電,啟動斷電應急預案,開啟
5、6號木門,開啟神威機房全部空調,布置電扇,將冷氣導入曙
光機房,熱量從6號木門的外部通道排出,選擇性殺除部分作業,至
13:05供電恢復,曙光空調開始工作,13:20環境恢復正常。全機在此
過程中,正常運行未停機,只損失了部分不重要的作業。
4.2單路斷電,UPS失效案例
20xx年8月某天,因低壓配電柜開關至UPS房間x-JM柜電纜發
生相對地短路,造成UPS機組逆變器自身保護動作,關閉UPS機組,
導致曙光主機系統失電。
全機掉電后,主機維護人員迅速按應急預案
手工關閉所有電源開關。10:30恢復供電,溫濕度恢復正常后,
全機加電,恢復過程中修復
storageOO
1、00
5、010三個盤陣的9個用戶文件系統,修復15個節點加電故障,
除cnodeOO
9、anode029電源
環境模塊故障,于當日15:10全機系統恢復正常。
由于處置及時,主機受影響范圍很小,在恢復供電后數小時即成
功開啟全系統。
5.隨時保持應急預案的適用性
主機長年累月的運行,故障和問題的發生,往往是必然的,也是
客觀、無法回避的。因此,要求在維護工作中,預先考慮到可能的問
題和故障,制定完善的應急預案。應急預案不可能包含所有的故障和
問題,但應根據維護經驗,盡可能地設想各種危機情況下的處置措施。
做到預想到各種可能的問題。
而在形成應急預案后,更重要的是持續地在
運行中加以完善、測試和演練,盡可能模擬實際情況,做到即使
只有1名維護人員在場,也能在真正發生危機時,以最短時間獨立處
置故障。
以目前中心的主機運維工作為例,三年內,僅斷電預案就已根據
實際運行情況的變化,制定并更新了5~6個版本,針對夏季突發斷電
也有專用預案。這樣的措施,直接保障了20xx年8月突發斷電事件中
的主機連續運行。而20xx年8月的突發斷電事件中,由于預案在之前
剛根據實際情況進行過演練和修改,主機維護人員僅用半小時就完成
所有應急操作動作,整機僅有個別設備故障,確保了主機設備未因突
發斷電而發生大范圍損壞現象,恢復供電后直接完成開機。
實踐證明,完善而適用的應急預案能保障向用戶提供穩定的高性
能計算服務。
6.結束語
完備而適用的應急預案能有效降低主機系統因意外事件發生帶來
的運行風險,對可能發生的意外來說,是一種事前防范措施。但對整
個主機系統產品而言,是一種事后防范措施。如果主機系統生產廠商
能把這些防范措施納入整個系統設計過程中,使操作方法更加簡便、
更趨于人性化,這將幫助主機維護人員更為妥善處理意外事件,用戶
得到更為穩定的高性能計算服務。我們相信未來國產的高性能計算機
能做到這一點,期待著這一天早日到來。
(為幫助了解,特在附錄中節選部分雙路斷電關機預案內容)
附錄:《曙光4000A超級計算機系統雙路斷電關機操作方法》
(省略具體操作步驟)
曙光4000A超級計算機系統雙路斷電關機操作方法
注意:
1、本方法專用于主機房發生雙路同時斷電緊急操作使用。(包括
單線斷電切換失敗)。
2、本方法作為《曙光-4000A超級計算機系統緊急關機操作方法》
的附件。
1.斷電確認及操作:
主機房內一旦發現斷電,并接物業明確通知為雙路斷電,首先執
行如下操作(即確保節點溫度):
1-1打開機房門便于散熱,
1.2機房通道上布置應急風扇加強冷熱空氣對流,夏季:應急風扇
布置.?;冬季:應急風扇布置一使曙光
機房的溫度盡量降低。
1.3打開所有機柜前、后門。
1.4密切注意機房節點平均溫度(專指各機柜液晶面板所示之環境
溫度值)。
2.緊急關機條件確認:
在完成上述操作后,密切觀察主機房環境。一旦有如下任何一個
條件滿足:
2.1自斷電發生起,已達到xx分鐘仍未恢復供電;
2.2采取上述緊急通風措施,節點溫度持續上升,超過xx℃;
可認定為緊急斷電事件,即刻按下列緊急關機操作方法進行操作。
3.緊急關機操作步驟:
注意事項:
3.1..
3.2關機操作的全過程中,注意隨時保持和物業的通訊聯系。除根
據情況隨時聯絡外,應嚴格保證每xx分鐘與物
業聯系一次,詢問UPS可支撐時間及恢復供電可能。(分機、手
機、對講機等)
3.3應理解關機原則為:根據實際電力供應考慮操作步驟,寧慢勿
快,在時間允許的情況下,最大程度保證x排節
點、存儲節點、SAN和SCSI存儲設備的運行,盡可能減少關閉范
圍,以確保恢復。
第一級操作:(首先執行)關閉主機系統外圍設備..
第二級操作:(完成上述操作后,當再次發現UPS電池低于xx分
鐘或節點平均溫度超過xx<,任一條件滿足,執行如下操作)
關閉非重要用戶計算節點(ABC組)..
第三級操作:(完成上述操作后,當再次發現UPS電池低于xx分
鐘或節點平均溫度超過xxC,任一條件滿足,執行如下操作)
關閉所有用戶計算節點(D組)..
第四級操作:(完成上述操作后,當再次發現UPS電池低于XX分
鐘或節點平均溫度超過xx(,任一條件滿足,執行如下操作)
關閉SAN存儲設備和LSF數據庫服務器..
第五級操作:(完成上述操作后,當再次發現UPS電池低于xx分
鐘或節點平均溫度超過xx(,任一條件滿足,完成關機操作)
關閉SCSI磁盤陣列和所有存儲節點..
特別關注:
1.如時間非常緊急,UPS電池低于xx分鐘:
直接執行關機腳本:
此腳本可分別將計算節點、接入節點、存儲節點進行關閉。
2.如時間極其緊急,UPS電池低于xx分鐘,可按《曙光-4000A
超級計算機系統緊急關機操作方法》,直接拉閘操作。
(上述二個方法僅用于突發情況,非極其必要情況下嚴禁使用,
應使用前列方法操作)
3.如遇主機失電(如關機操作不及已掉電或突發自動掉電)應關
閉所涉范圍所有設備電閘開關。..
機房應急預案9
為了應對各種突發和緊急事件,特制訂以下方案。
一、突發和緊急事件指自然因素或其它原因引起(或可能引起)
基站財產安全或較多基站中斷的所有事件。
二、啟動基站維護(緊急)組織實施方案的范圍:梅雨季節地勢
低洼基站的防汛;雷電高峰期基站的動力搶修或搶險;大雪(暴雪)
基站房屋及鐵塔的維護及應急搶修工作;臺風、地震前中后基站及鐵
塔的維護;傳輸或MSC(BSC)故障造成基站大面積故障,故障恢復
后基站網絡的測試。
三、啟動基站維護(緊急)組織實施方案的條件:天氣和各種地
質災害預報或由此可造成(或正在造成)基站的財產安全和網絡穩定
運行,網管統計發現大面積網絡故障時必須立即啟動基站維護(緊急)
組織實施方案。
四、對于由自然因素可能引起的基站及分布系統站點的財產安全
和網絡穩定運行,得知地質或天氣預報后,立即組織各代維項目部區
和相關工程施工單位對所在地的站點進行預防性巡檢,對于各種隱患
要求各項目部現場及時上報給我公司災害預防和處理應急領導小組和
各地移動公司應急領導小組。
五、我公司應急領導小組成員和各代維項目部所有維護人員在重
大災害預防和搶險過程中的的移動電話必須24小時開機,必須無條件
服從公司應急領導小組和代維項目經理統一安排,若某項目出現人員
不足的情況下,公司臨時從總部或異地抽調人員和車輛參加搶險;凡
當地移動公司所轄站點不是我公司維的護站點出現重大險情后,我公
司抗災任務又不重時,各項目部要主動向移動請纓。
六、公司在每一次抗災救險活動結束后
公司應急領導小組應對本次活動的.成功經驗和教訓進行總結,對
表現優秀的團隊或個人進行表彰,表現較差的團隊或個人進行處罰
七、重大災害預防和搶險的人員組織機構:
領導小組由總經理,副總經理,各部門經理及地區經理組成,總
經理為總指揮,各代維項目部也應成立相應成立相應的抗災救險領導
小組。
八、抗災救險人員安排:
公司總部和各代維項目部應包括以下小組
L通信保障組:在發生險情時提供移動通信應急保障,負責實施
應急通信的詳細方案、應急中所需的備品、備件、測試儀表、工具、
技術資料的保管及預防性維護保障工作。
2、物資調撥組:負責所有應急物資日常保管、定期檢查、更新以
及應急時的調撥和運送。
3、搶險救災組:負責應急時的搶修和救災方案的實施
九、值班制度
L各代維項目部在啟動抗災救險預案后應實行24小時值班制度,
設立固定值班地點和24小時值班熱線。
2、全體應急人員保持24小時開機。
3、在接到上級關于進入應急狀態的通知后,即由領導小組成員組
成指揮中心。
十、體保障措施細則:
1、根據每年的雨情在進入梅雨季節后將基站及分布系統代維的工
作重點轉為重點機房、基站等重點防汛場所的巡視,故障處理。在遇
到突發或緊急時間期間,加強對重點基站、低洼基站及傳輸機房的巡
視,確保環境監控系統工作正常。重點基站及傳輸機房一周一次,低
洼基站二周一次。臺風期間每天對拉線塔進行巡檢,并填寫基站巡檢
表。
2、重點保障地點預置好防汛搶險物資。并給各維護小組配備部分
隨車搶險物資。如編織袋、鐵鍬、雨衣、雨靴、防火泥、防火包、手
電等。對抽水泵,移動油機進行保養,確保其工作正常。對應急燈、
應急手機定期充電。
3、出現連續暴雨或臺風情況時,維護人員每天對重點站點及所有
拉線塔進行巡視,填寫基站巡檢表。發現緊急情況立即通知我公司地
區經理和移動代維管理人員,由代維管理人員上報移動部門領導,并
趕赴現場確認,視情況確定是否安排專人(人員由綜合部安排)進行
24小時值守。
4、網管值班人員對環境監控設備出現的告警密切觀察并記錄,若
確有異常情況發生,立即通知我代維人員趕赴現場檢查。并追蹤代維
人員的處理情況和反饋結果,若發現代維人員未及時處理,我網管值
班人員應立即向我公司和移動公司匯報。
5、進入汛期后由各項目部負責每天了解所在區域的水位情況,并
通知網管值班人員,由網管值班人員通知我代維人員及移動代維管理
人員,根據水位情況合理調度巡視隊伍與車輛。
6、收到臺風警報后,各項部項目經理立即組織代維人員對全區拉
線塔進行巡檢,發現異常發現緊急情況立即通知移動代維管理人員和
我公司應急領導小組,視情況確定應急措施。
7、收到大雪或暴雪預報,組織維護人員對所轄基站中拉線塔基站、
彩鋼瓦基站進行重點巡檢,當得到網管或其他人員通知所轄基站中有
拉線塔基站、彩鋼瓦基站出現故障或非正常情況,立即派搶修人員奔
赴現場,并逐級上報。
機房應急預案10
為建立有效防范和處理火災事故的工作機制,防范消防安全事故
的發生,力保消防安全事故發生時能夠快速、高效、合理有序地處置,
特制定本預案。一.機房火災隱患分析由于機房內電氣設備多,線路復
雜,大部分的火災都是電氣火災,引發電氣火災的主要因素有:
1.電氣線路短路、過載、接地電阻過大等引發火災。2.由于機房
內的電腦、空調、UPS等設備長時間不間斷運行或設備故障引發火災。
3.靜電產生火災。4.雷電等強電入侵引發火災。二.處置程序1.發現火
情后,迅速切斷電源,利用就近滅火器進行滅火,并按照特級事故通
報機制進行通報,向領導匯報火災具體情況。
2.迅速組織相關人員攜帶消防器具趕赴現場滅火,并聽從現場指
揮人員指揮。
3.如火情較為嚴重,應立即與大廈消防中控取得聯系,并與之協
商處理辦法措施,必要時需要專業消防滅火的,迅速撥打119。4.迅
速組織相關人員對重要數據設備進行轉移,盡可能保證關鍵設備安全,
引導人員進行疏散。三.撲救方法1.電源或線路起火應首先切斷電源,
絕不能用水撲救。2.撲救機房設備時,最好使用氣體(如CO2)滅火器,
干粉,泡沫滅火器會對設備造成腐蝕,使損失增大。四注意事項
1.一旦機房發生火災,應遵循以下原則:首先保證人員安全;其
次保證關鍵設備安全;再保證一般設備安全。2.火災發生時,第一發
現人查明起火原因,如因電源引起,應首先切斷電源。
3.火災發生后應遵循邊救火,邊報警的原則。五.預防措施
L設備整改:機房現有的電氣設備和消防設備均有存在不合理之
處,需要整改,消除隱患。現有的配電開關為墻上的半埋式家用配電
開關,應更換為專業的獨立空氣配電箱,修改配電柜各類閘刀和開關
的布局,使其具備獨立切換的功能。現有的.滅火器為干粉滅火器,且
維護也已過期,干粉滅火器雖然可以有效滅火,但是會對設備造成腐
蝕,損壞設備,應更換為氣體滅火器。
2.每天定時對機房重要電氣設備和電子設備的溫度進行了監控,
能夠及時地發現并消除隱患。3.應組織相關人員進行消防安全教育,
學習消防知識,學會正確使用各種滅火器,有計劃的進行相關的消防
演習。
機房應急預案11
機房消防安全工作極為重要,一旦發生火災,將直接影響大廈內
設備正常運行,并對人身安全和經濟財產造成巨大的損失。為防范消
防安全事故發生,保證消防安全事故發生時能夠快速、高效、合理有
序地處置,特制定本預案。
一、電氣火災的主要因素
1、電氣線路短路、過載、接地電阻過大等引發火災。
2、由于機房內設備長時間不間斷運行或設備故障引發火災。
3、靜電產生火災。
4、雷電等強電入侵引發火災。
二、處置程序
1、發現火情后,迅速切斷電源,利用就近滅火器進行滅火,并按
照特級事故通報機制進行通報,向領導匯報火災具體情況。
2、迅速組織相關人員攜帶消防器具趕赴現場滅火,并聽從現場指
揮人員指揮。
3、如火情較為嚴重,應立即與大廈消防中控取得聯系,并與之協
商處理辦法措施,必要時需要專業消防滅火的,迅速請示領導撥打
119。
三、注意事項
1、一旦機房發生火災,應遵循以下原則:首先保證人員安全;其
次保證關鍵設備安全;再保證一般設備安全;救火過程中應邊救火,
邊報警。
2、火災發生時,第一發現人查明起火原因,如因電源引起,應首
先切斷電源。
四、預防措施
1、對機房內電氣設備定期檢查。發現存在問題的設備及時維修,
消除安全隱患。
2、每天定時對機房重要電氣設備和電子設備的溫度進行了監控,
能夠及時地發現并消除隱患。
3、應組織相關人員進行消防安全教育,學習消防知識,學會正確
使用各種滅火器,有計劃的'進行相關的消防演習。
機房應急預案12
第一節總則
1、保證人員和財產的安全為前提的原則:在由于火災或電力問題
造成的主機故障,在解決故障前,應以保證人員的生命安全和財產的
安全為前提,然后進行故障的解決。
2、最快時間恢復業務的原則:本著先想盡一切方法,盡快恢復業
務的原則來處理故障,如在有備用設備的情況下,主設備產生了故障,
應先盡快將應用切換到備用機上,使業務能夠運行,再對故障設備進
彳形斷和維修。
3、故障應急人員高度負責的原則:當故障應急人員在節假日接到
故障通知時,本著高度負責的態度,應迅速接手處理障礙,如遠程無
法處理解決,應迅速趕到故障設備所在地,進行現場處理,處理故障
的同時應及時向領導匯報。應急人員不可互相推卸責任,如因特殊情
況,確實無法處理障礙,部門領導必須安排好其他人員處理。
4、盡可能全面的保留故障現場的原則:當故障發生后,應急人員
應盡可能全面的備份出能夠反映故障現象的各種日志、記錄、受損文
件等,便于業務恢復后,對故障的分析、解決,杜絕故障的再次發生。
應急方案的目標:保證預付卡運營系統連續安全穩定地運行。
第二節應急領導小組
應急領導小組成員:
組長:副組長:成員:
第三節電源系統故障應急處理
定期檢查信息中心機房電源設備的運行狀況,當發生下列突發事
件時,按以下方案進行處置:
當中心機房發生市電供電突然停電或遠程報警電源異常時。首先
確認是否為正常停電及預計停電時間。檢查不間斷電源的電池可供電
時間,需在不間斷電源供電時效內關閉所有服務器及網絡設備。
聯系工程部查看停電原因,盡快恢復供電,并將情況報告相關領
導
工程部聯系電話:
第四節空調系統故障應急處理
定期對空調的運行情況進行檢查,如有報警信息,應及時查找故
障原因,對于不能自行排除的問題,應及時與設備提供商進行聯系。
當中心機房主空調因故障無法制冷,致使機房內環境溫度超過攝
氏40度時,打開機房房門,并關閉所有服務器及網絡設備。對于無法
自行處置的'空調系統異常情況,及時與設備提供商聯系,并報告公司
領導。空調問題聯系人:
第五節中心機房自動消防系統應急處理當中心機房發生火警時,
按以下方案進行處置:
1.上班工作時間發生火警,聽到自動消防系統發出的聲光報警后,
中心機房附近辦公室人員應及時緊急撤離,避免氣體自動消防系統啟
動后,消防氣體對附近人員造成人身傷害。確認火警后,立刻撥打
119報警,并說明盡量使用氣體滅火器進行滅火,減少電子設備的損
壞。
2.發生火警后,信息中心相關人員應馬上趕赴現場,并向有關領
導報告事故情況。同時立即聯系聯通等相關公司,及時評估事故損失
情況,研討盡快恢復信息系統正常運行的最佳方案。安保消防中控電
話:
第六節設備、網絡系統故障應急處理
設備、網絡應用系統故障應由發現人通知技術部,技術部門立即
檢查故障,進行初步故障定位,解決;
1.網絡設備、服務器、儲存設備均有備份,當設備存在硬件問題
時,可隨時把業務切換到備份主機上,保證業務正常運行;2.應用系
統每更新一次則做一次遠程備份,在遠程主機上分別備份舊的應用系
統和更新后的應用系統,以當天的更新日期命名;3.對磁盤柜上的數
據庫文件有定時任務,每天凌晨4:00會把數據庫里的數據文件倒出
到遠程備份主機上,以確保磁盤柜出現硬件故障的時候,數據文件不
丟失;對于網絡、應用系統出現硬件方面的故障,比較嚴重的問題,
對業務的正常運行造成較大的影響,立即向有關領導報告。
4、網絡中有監控服務器,運用CactivlO最新的版本,監控網絡
所有設備(路由器,防火墻,交換機以及服務器設備);對設備本身
的硬件檢測、外部入侵檢測、外部攻擊等多種對系統不利因素以發送
mail的形式報警;相關人員收到報警信息,分析收到的log日志以做
出相應的處理。
5、每周周五對網絡設備進行日志及配置文件采集,對數據庫數據
文件定期下載,和遠程備份;在本地電腦上保存最近的配置文件,以
便在發生毀滅性的災難時,用來重組。
對簡單故障,運維人員應迅速排除故暄,解決問題并記錄。如果
需要更換設備,應上報有關領導,經批準后馬上更換故障設備,盡快
恢復網絡、應用系統運行。運維部門判斷無法及時修理時,應立即通
知相關的系統運行服務提供商,在最短的時間內安排修理或更換系統。
如發現屬外部線路的問題,應與線路服務提供商聯系,敦促對方
盡快恢復故障線路。
啟用備份線路、設備、系統,迅速恢復相關的應用。
聯通聯系電話:
第七節黑客入侵的應急處理
發現網絡上有黑客攻擊行為,任何人員都有義務向技術部門報告。
技術部立即啟動應急響應,切斷受攻擊計算機與網絡的連接,停止一
切操作、保護現場,并上報有關領導。
對于黑客攻擊,由計算中心組織應急響應專家小組查找入侵蹤跡,
分析入侵方式和原因。由安全管理員根據對入侵事件的分析,組織相
關人員對內部網計算機整改,防止黑客用同樣的手段再次入侵其他系
統。安全管理員檢查確定無安全隱患后,才可將受攻擊計算機重新連
接網絡,或啟用備份計算機來恢復應用。
安全管理員應做好記錄,保護現場,進行日志收集等工作。如果
能追查到攻擊者的相關信息,可以對其發出警告,必要時可以采取進
一步的行動,乃至采取法律手段。根據破壞程度,經有關領導同意后,
上報公安部門。
若系統已被黑客破壞,無法恢復,應將受黑客攻擊的計算機上的
重要數據備份到其他存儲介質,確保計算機內重要的數據不丟失。如
果數據無法恢復,經有關領導同意后,可與國家指定的部門聯系,由
他們來協助恢復,為保證數據信息安全,需在安全管理部門作記錄。
第八節生產系統、數據庫故障處理
生產系統出現故障,技術部做出應急處理
1.因軟件設計缺陷、設計漏洞等引起的故障,通知公司研發部門
在2小時內查明原因,解決問題。
2.數據庫出現故障,運維人員應在2小時內查清故障原因,其他相
關部門應積極配合,解決問題。
3.如出現數據丟失情況,確認不能自行恢復后,啟用備份恢復數
據,24小時內恢復運營。
本方案自發布之日起施行
機房應急預案13
總則
1.1編制目的
為高效有序地做好機房火災事故的應急處置工作,避免或最大程
度地減輕火災事故造成的損失,保障員工生命和企業財產安全,維護
社會穩定。
1.2編制依據
《中華人民共和國安全生產法》《江蘇省消防條例》
1.3適用范圍
適用于機房火災事故的現場應急處置和應急救援工作。
2.事件特征
2.1事件類型及危險性分析
2.1.1電氣線路短路、過載、接觸電阻過大,靜電,雷擊等強電侵
入,機房內電腦、空調等用電設備長時間通電過熱、設備故障等原因
均可能引起計算機房的火災事故。
2.1.2機房火災事故會造成計算機設備損壞、系統故障網絡中斷或
癱瘓,影響網絡的安全運行。
2.1.3火災產生的有毒煙霧污染機房的空氣,造成人員中毒、窒息
等人身傷亡事故。
3.應急組織及職責
3.1火災應急指揮部
應急指揮部總指揮:
機房火災應急搶險指揮:
成員:
3.2指揮部人員的職責
3.2.1指揮的職責:全面指揮突發事件應急救援工作。
3.2.2高低壓專業職責:組織、協調本部門人員參加應急處置和救
援工作,對發生險情機房切斷電源。
3.2.3智能化專業職責:監控相關區域事故情況。
3.2.4空調專業職責:發現異常情況,及時切斷空調、通風系統,
做好運行方式的調整和故障設備的隔離。4應急處置
4.1現場應急處置程序
4.1.1最早發現火情者應立即向值班長和機房負責人匯報,機房負
責人到現場指揮滅火,
同時報告公司領導,啟動本預案。
4.1.2機房負責人根據事故狀態及危害程度做出相應的應急決定,
指揮疏散現
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 高中化學探究式教學
- 江蘇省淮安市淮陰區淮陰中學2025屆高三六校第一次聯考英語試卷含解析
- 中式烹調師(初級)練習題庫(附參考答案)
- 市場調查與預測模擬題(附參考答案)
- 2025屆甘肅省金昌市金川高級中學高三下學期一模英語試題(原卷版+解析版)
- 船舶壓載水管理系統的工作原理與操作考核試卷
- 舞臺燈光與空間氛圍的營造考核試卷
- 搬運設備智能維護與遠程支持考核試卷
- 海洋能發電站工程技術發展趨勢考核試卷
- 紙制品三維建模與仿真考核試卷
- 李子奈《計量經濟學》(第5版)筆記和典型題(含考研真題)詳解
- 現澆梁鋼管柱+貝雷片支架驗收表
- 制作自然發酵酸奶的方法
- 《肖申克的救贖》中英雙語劇本
- 趙武靈王胡服騎射-課件
- 護士長管理能力培訓講義課件
- 2023年口腔醫學(副高)歷年真題
- 主體工程實體質量實測實量檢查表
- 大理石測量平臺校驗規程
- 幼兒園辦學資料:幼兒圖書目錄
- 扣款申請單(標準模版)
評論
0/150
提交評論