超算中心運維管理方案_第1頁
超算中心運維管理方案_第2頁
超算中心運維管理方案_第3頁
已閱讀5頁,還剩3頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、超算中心運維管理方案學生姓名學院專業班級學生學號手機王排軟件學院軟件工程13C超算中心運維需求及分析超算中心需求:依據服務指標運行情況,建立運維服務水平評價體系:服務運行指標體系 覆蓋系統連續性服務能力、系統設備可用性、人員服務能力、項目管理等方面, 通過服務指標監控和運行分析,實現對運行服務的集中、分級管理和監控,并 能夠及時調整運行維護策略,促進運維質量和效率的提高。從整體運維、優化 的角度,包括但不限于實現以下內容,并根據實際業務運行需求不斷完善優化:1)項目管理:為保證項目順利實施所需的項目整體規劃、進度控制、相關 方溝通,組織并協調駐場人員、分包商、供應商、設備廠商、承建商及維保商

2、等等共同配合推進運維項目的順利進行。2)設備管理:根據運維目標針對各軟硬件系統、設施制定使用、維護、操 作規范,形成有效的管理機制,分析各系統風險點和項目實施期間發現的問題 并制定相應的解決和優化方案,并跟進日常各種問題、故障的處理實施情況, 提高機房的可用性。3)機房容量管理:根據機房實際情況與業務發展需要,綜合供配電、制冷、消防、承重、設備管理等等因素,制定機房的空間及設備上線管理規范,提高機房基礎環境的利用率;4)生產安全管理:根據國家有關的法律法規及行業規范,從生產運行、人身安全、資產、信息等角度制定安全管理制度,并切實執行,實現運維期內安全零事故;5)服務質量管理:根據實際運維工作需

3、要,制定服務質量標準及質量控制 規程,通過培訓、演練等多種方式實現對項目實施質量的控制,保證各項要求、 規范的實施效果。6)資產管理:針對本項目范圍內所涉及的設施、設備、耗材、工具、軟件等等制定嚴格的管理規范,并落實相關管理崗位責任,保證項目各項資產的完 整性。7)人員管理:根據崗位需要和項目要求,配備具體相關技能、資格證書及資歷的服務人員,并制定完善的人員管理與考核制度,保證服務人員的精神面貌、服務水平。8)配置及數據管理:針對本項目實施所涉及和產生的包括系統資料、規章制度、系統運行要求、運行數據、實施記錄等所有與項目有關的信息數據應該 進行及時的整理、保存,并根據其關聯性形成目錄便于查詢。

4、超算中心需求分析:超算中心的運維管理指的是與數據中心信息服務相關的管理工作的總稱。 超算中心中心運維對象共可分成 5 類:1,機房環境基礎設施部分。這里主要指為保障數據中心所管理設備正常運 行所必需的網絡通信、電力資源、環境資源等。這部分設備對于用戶來說幾乎 是透明的,因為大多數用戶基本并不會關注到數據中心的風火水電。但是,這 類設備如發生意外,對依托于該基礎設施的應用來說,卻是致命的。2,在提供 IT 服務過程中所應用的各種設備,包括存儲、服務器、網絡設 備、安全設備等硬件資源。這類設備在向用戶提供 IT 服務過程中提供了計算、 存儲與通信等功能,是 IT 服務最直接的物理載體。3,系統與數

5、據,包括操作系統、數據庫、中間件、應用程序等軟件資源 還有業務數據、配置文件、日志等各類數據。這類管理對象雖然不像前兩類管 理對象那樣看得見,摸得著,但卻是 IT 服務的邏輯載體。4,管理工具,包括了基礎設施監控軟件、監控軟件。這類管理對象是幫助 管理主體更高效地管理數據中心內各種管理對象,并在管理活動中承擔起部分 管理功能的軟硬件設施。通過這些工具,可以直觀感受并考證到數據中心如何 管理好與其直接相關的資源,從而間接地提升的可用性與可靠性。5,人 員,包括了數據中心的技術人員、運維人員、管理人員以及提供服 務的廠商人員。人員一方面作為管理的主體負責管理數據中心運維對象,另一 方面也作為管理的

6、對 象,支持 IT 的運行。這類對象與其他運維對象不同,具 有很強的主觀能動性,其管理的好壞將直接影響到整個運維管理體系,而不僅 僅是運維對象本身。超算中心運維存在的問題 / 難點1、超算中心項目龐大,從設備到人員,相對復雜,統一協調是大問題,導致問 題不能及時解決。各部門之間無法形成統一協調的 IT 系統管理,問題得不到有 效的跟蹤,也就談不上及時解決。2、原因不清,導致問題無法根治。如果說統一協調管理問題不得不解決, 那么當超算中心的某個流程出現問題時,往往因為找不到故障原因,而無法從 根本解決問題的情況,卻成為中心很難解決的問題。3、對人的依賴,導致人員變更后的運維問題。如果一個熟練運維

7、人員的崗 位發生變更,當問題在出現時,就很難得到迅速處理。即使會有新人繼承前人的工作,但他卻無法繼承前人的運維經驗,這成為企業運維成本增加,重復投 資的重要原因。4、技術問題,超算技術,機房的維護,需要非常專業的技術,這樣對人員 的依賴,特別對高技術人才需要是必須的。三,超算中心運維解決方案人員配置:人員配置原則是雙崗制,重要崗位配置雙人輪換,以保證人員的更替不會對現有運維管理造成影響,包括不少于以下數量的人員:1駐場項目經理1名(5 X8駐場,7 X24小時待命);2機房駐場運維技術主管不少于 2名(5 X8駐場,7 X24小時待命);3駐場值班團隊人員不少于20名(全年7X24小時駐場值班

8、),持包括電工證、高壓證、制冷證、建(構)筑物消防員資格等資格。運維原則:通過強大的綜合分析能力,為超算提供運維參考和技術支持 應隨時了解超算中心的運行情況和安全狀況、安全態勢,在穩定和安全的基礎 上,對安全事件和安全態勢進行綜合分析,得出宏觀的規律和各類不同事件相 互聯系的規律,為超算中心運維提供強有力的數據參考和決策支持。 提高安全 事件的響應和處理能力 結合監控中發現的問題,以及在安全檢查中對自身脆弱性的了解,為應急響應 的處理提供了依據,同時依據超算中心特點,建立超算中心安全知識庫。鑒于 目前超算中心的人員并不具備獨立處理安全事件的技術實力,中心需要專業安 全服務廠商提供安全事件的預警

9、、響應和必要的技術支持,提高超算中心運維 部門的安全事件響應與 處理能力。 預先防范,提前做好安全性檢查,全面提升 主動檢測能力Web 應用的安全性成為越來越需要關注的問題,有近 40% 的入侵是由于 Web 應用的問題造成的。在 AppliedResearch 發表的一份調查報告中, 企業反饋 超過一半的最頻繁的攻擊是針對 Web 應用的。這些攻擊中有一半都出現在著 名“ OWASP十大威脅”名單中。面對這些持續而頻繁的攻擊,超算中心需 要 進行定期的安全檢查,及時主動發現信息系統中存在的安全漏洞及潛在威脅。 建立超算中心安全事件監測機制,及時發現超算中心安全問題 運維階段中,我 們如何及時

10、發現異常行為 ?這是正常用戶應該出現的行為嗎 ?該用戶是否被控制 或穿了馬甲 ?比如某臺服務器出現了大量的外連上傳行為、進出訪問 IP 中出現 大量陌生的境外IP或CNCERT通報的惡意IP等。所以,超算中心需要建立一 套有效的安全事件監控和預警措施,能夠在超算系統即將遭到攻擊或 已經遭到 攻擊時,快速、準確地發現攻擊行為,并迅速啟動處置和應急機制。同時可以 對信息系統的安全事件進行綜合分析,了解當前整體超算系統的安全態勢,為 整體 網絡與信息安全規劃提供有效的數據支持。管理原則:1、定義各運維對象的運維內容 超算中心資源管理所涵蓋的范圍很廣,包括環境管理、網絡管理、設備管理、軟件管 理、存儲

11、介質管理、防病毒管理、應用管理、日常操作管理、用戶密碼管理和員工管 理等。要對每一個管理對象的日常維護工作內容有一個明確的定義,定義操作內容、 維護頻度、對應的責任人,要做到有章可循,責任人可追蹤。實現對整個超算中心的 全生命周期的追蹤管理。2、建立信息化的運維管理超算中心超算中心的運維管理應從超算中心的日常監控入手,事件管理、變更管理、應急 預案管理和日常維護管理等方面全方位地進行超算中心的日常監控。實現提前發現問 題、消除隱患,首先要有完整的、全方位實時有效的監控超算中心,并著重監控數據 的記錄和技術分析。超算中心的業務可以概括為: 通過運行超算中心來向客戶提供服務。沒有信息中心的支撐來運

12、行超算中心就如超市 里仍然采用手工結賬一樣不能讓顧客滿意。信息化的超算中心運維管理平臺超算中心 包括如下方面:機房環境基礎設施監控管理超算中心IT 超算中心監控管理超算中心IT 服務管理超算中心3、自動化管理IT 服務根據負載變化可以自動調整所需資源,以求在及時響應和節約成本上取得平衡: 同時,計算能力規模越來越大,人工管理資源也越來越不實際。這些新特性對 IT 管 理自動化能力提出了更高要求,企業往往希望在不失靈活性的前提下可以得到更高程 度的自動化。為此,超算中心需要部署自動化管理平臺,集中管理虛擬化和云計算平臺、提供自定 義規則定制功能的自動化解決方案,用戶通過使用事件觸發、數據監控觸發

13、等方式來 自動化管理,節約人力同時提高響應速度。4、人員管理超算中心是為公司用戶提供 IT 服務的,為了保留和吸引客戶,在運維過程中客戶關 系管理非常重要。(1) 服務評審:與客戶進行定期或不定期的針對服務提供情況的溝通。每次的溝通均應形成溝通記錄,以備超算中心對服務進行評價和改進。(2) 客戶滿意度調查:客戶滿意度調查主要包括客戶滿意度調查的設計、執行和客戶 滿意度調查結果的分析、改進 4 個階段。超算中心可根據客戶的特點制定不同的客戶 滿意度調查方案。(3) 客戶抱怨管理:客戶抱怨管理規定超算中心接收客戶提出抱怨的途徑,以及抱怨 的相應方式,并留下與事件管理等流程的接口。應針對客戶抱怨完成

14、分析報告,總結 客戶抱怨的原因,制定相關的改進措施。為及時應對客戶的抱怨,應該規定客戶抱怨 的升級機制,對于嚴重的客戶抱怨,按升級的客戶投訴流程進行相應處理。七、安全性管理由于提供服務的超算中心和數據被轉移到用戶可掌控的范圍之外,超算中心的數據安 全、隱私保護已成為用戶對超算中心最為擔憂的方面。超算中心引發的安全問題除了 包括傳統網絡與信息安全問題 (如超算中心防護、數據加密、用戶訪問控制、 Dos 攻 擊等問題 ) 外,還包括由集中服務模式所引發的安全問題以及云計算技術引入的安全 問題,例如防虛機隔離、多租戶數據隔離、殘余數據擦除以及多 SaaS 應用統一身份 認證等問題。要解決超算中心引發

15、的安全問題,超算中心提供商需要提升用戶安全認知、強化服務 運營管理和加強安全技術保障等。需加強用戶對不同重要性數據遷移的認知,并在服 務合同中強化用戶自身的服務帳號保密意識,可以提升用戶對安全的認知;在服務管 理方面,嚴格設定關鍵超算中心的分級分權管理權限并輔之以相應規章制度,同時加 強對合作供應商的資格審查與保密教育 ;加強安全技術保障,要充分利用網絡安全、 數據加密、身份認證等技術,消除用戶對超算中心使用的安全擔憂,增強用戶使用超 算中心的信心。八、流程管理 流程是超算中心運維管理質量的保證。作為運維服務的物理載體,超算中心存在的目 的就是保證服務可以按質、按量地提供。為確保最終提供給客戶

16、的服務是符合服務合 同的要求,超算中心需要把現在的管理工作抽象成不同的管理流程,并把流程之間的 關系、流程的角色、流程的觸發點、流程的輸入與輸出等進行詳細定義。通過這種流 程的建立,一方面可以使超算中心的人員能夠對工作有一個統一的認識,更重要的是 通過這些服務工作的流程化使得整個服務提供過程可被監控、管理,形成真正意義上 的“ IT服務車間”超算中心建立的管理流程除應滿足超算中心自身特點外,還應能兼 顧客戶、管理者、服務商與審計機構的需求。由于每個超算中心的實際運維情況與管 理目標存在差異,超算中心需要建立的流程也會有所不同。九、應急預案管理 應急預案是為確保發生故障事件后,盡快消除緊急事件的不良影響,恢復業務的持續 營運而制定的應急處理措施。應急預案的注意事項:(1) 根據業務影響分析的結果及故障場景的特點編寫應急預案,確保當緊急事件發生 后可維持業務運作,在重要業務流程中斷或發生故障后在規定時間內恢復業務運作。(2) 應急預案除包括特定場景出現后各部門、第三方的責任與職責外,還應評估復原 可接受的總時間。(3) 應急預案必須經過演練,使相關責任人熟悉應急預案的內容。應急預案應是一個 閉環管理,從預案的創建、演練、評估到修訂應是一個全過程的管理,絕不能是為了 應付某

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論