數據中心基礎設施管理系統-集中監控方案_第1頁
數據中心基礎設施管理系統-集中監控方案_第2頁
數據中心基礎設施管理系統-集中監控方案_第3頁
數據中心基礎設施管理系統-集中監控方案_第4頁
數據中心基礎設施管理系統-集中監控方案_第5頁
已閱讀5頁,還剩24頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、 29/29數據中心基礎設施管理系統集中監控方案建議書(DCIM)目錄 TOC o 1-3 h z u HYPERLINK l _Toc519410914 1.項目概述及需求理解 PAGEREF _Toc519410914 h 4 HYPERLINK l _Toc519410915 1.1.項目背景簡介 PAGEREF _Toc519410915 h 4 HYPERLINK l _Toc519410916 1.2.項目管理范圍 PAGEREF _Toc519410916 h 4 HYPERLINK l _Toc519410917 1.3.項目建設原則 PAGEREF _Toc519410917

2、 h 5 HYPERLINK l _Toc519410918 1.4.項目建設目標 PAGEREF _Toc519410918 h 6 HYPERLINK l _Toc519410919 1.5.解決方案概述 PAGEREF _Toc519410919 h 7 HYPERLINK l _Toc519410920 2.系統架構及實現原理 PAGEREF _Toc519410920 h 11 HYPERLINK l _Toc519410922 3.1.系統架構 PAGEREF _Toc519410922 h 11 HYPERLINK l _Toc519410923 3.1.1.采集層 PAGERE

3、F _Toc519410923 h 12 HYPERLINK l _Toc519410924 3.1.2.處理層 PAGEREF _Toc519410924 h 12 HYPERLINK l _Toc519410925 3.1.3.管理層 PAGEREF _Toc519410925 h 13 HYPERLINK l _Toc519410926 3.1.4.交互展現層 PAGEREF _Toc519410926 h 13 HYPERLINK l _Toc519410927 4.DCIM系統功能實現 PAGEREF _Toc519410927 h 14 HYPERLINK l _Toc519410

4、929 5.1.基礎設施集中監控 PAGEREF _Toc519410929 h 14 HYPERLINK l _Toc519410930 5.1.1.UPS監控 PAGEREF _Toc519410930 h 15 HYPERLINK l _Toc519410931 5.1.2.蓄電池監測 PAGEREF _Toc519410931 h 16 HYPERLINK l _Toc519410932 5.1.3.配電參數監測 PAGEREF _Toc519410932 h 17 HYPERLINK l _Toc519410933 5.1.4.發電機監測 PAGEREF _Toc519410933

5、h 19 HYPERLINK l _Toc519410934 5.1.5.精密空調(加濕器)監控 PAGEREF _Toc519410934 h 20 HYPERLINK l _Toc519410935 5.1.6.環境監控(溫濕度、風速、氫氣) PAGEREF _Toc519410935 h 22 HYPERLINK l _Toc519410936 5.1.7.漏水檢測 PAGEREF _Toc519410936 h 23 HYPERLINK l _Toc519410937 5.1.8.消防(極早期)監測 PAGEREF _Toc519410937 h 24 HYPERLINK l _Toc

6、519410938 6.系統部署方案及軟硬件配置要求 PAGEREF _Toc519410938 h 25 HYPERLINK l _Toc519410939 6.1.分布式部署方案 PAGEREF _Toc519410939 h 25 HYPERLINK l _Toc519410940 6.2.服務器硬件 PAGEREF _Toc519410940 h 27 HYPERLINK l _Toc519410941 6.3.服務器軟件 PAGEREF _Toc519410941 h 29項目概述及需求理解項目背景簡介 伴隨著數據中心規模的不斷擴大,業務量的逐漸增大,對數據中心的運維管理也變的越來越

7、重要。一旦基礎設施系統出現問題,而沒有及時地得到妥善解決,常常會給企、事業造成很大的損失。怎樣能7x24小時保證設備系統的正常運行,避免各種故障的發生,優化和改進傳統的運維模式,提高客戶服務的及時性和滿意度就顯得非常重要。因此,建設一套數據中心基礎設施管理系統勢在必行。一個完備的運維管理系統能夠提供7x24小時檢測基礎設施運行狀態、各種資源狀態的信息。運維管理人員依靠流程管理系統可以及時排除故障避免造成重大損失,控制運維質量提高服務水平。項目管理范圍項目內容:設施故障發現與警報;記錄日常運維日志信息;設施故障統計;設施軟硬件信息統計;服務進程管理;將數據信息存儲備份,并采用不同方式直觀的展示出

8、來;服務人員績效、考核管理;將數據生成報表;項目建設原則數據中心基礎設施管理系統建設指導思想是:“統一規劃、分步實施、已有納入、新建遵循”。數據中心基礎設施管理系統項目建設是要建設一個集中管控資源的運維平臺,所以需充分考慮對已有各種產品組件做針對性的開發、整合工作。在項目建設過程中,除滿足系統功能需求外,遵循如下原則:安全性原則:系統設計注重安全方面的設計,確保系統的安全運行。系統提供安全認證技術,確保登錄身份認證安全性、有效性。穩定性原則:保證系統不間斷運行,系統執行監控及操作任務時或出現自身故障,絕不能影響被監控及操作對象的正常穩定運行。開放性原則:系統遵循行業主要的標準化組織所提供的標準

9、或建議,采用標準的、開放性的技術,能夠實現與其他廠商的產品無縫地連接;采用國際標準化組織及工業界廣泛接受的有關標準和基于標準的通用軟硬件平臺。可擴展性原則:在保持系統的基本體系結構長期穩定的前提下,可以有效地容納和支持基礎設施規模的不斷擴大和復雜、業務種類的增多。同時,能夠在應用體系結構和軟件模塊劃分兩個方面支持整個應用的良好擴展性。在體系結構方面采用多層結構劃分,實現各層的高聚合和層間低耦合。盡量使用模塊化和插件化,使得擴展時對原系統的影響最小化。用戶體驗優化原則:具有較高的易用性,界面友好,美觀統一,并對人機交互進行優化設計。靈活性原則:系統各子系統及子系統內功能模塊具有一定的獨立性,同時

10、具有系統相關性和整體一致性。系統提供自動化升級維護功能,系統的維護及拓展靈活、方便。規范性原則:統一接口標準,規范數據字典。定義監控接入標準,規范未來新建系統的監控。項目建設目標 加強數據中心的維護平臺建設,提高數據中心的運行管理水平,通過運維體系的建設,結合構建集中式的服務熱線、運維流程、系統監控和綜合展示系統,通過系統聯動,及時、準確、全面反映與掌握數據中心的運行狀態,保障各業務系統的正常運行,并達成如下目標: (1)強化主動監控,實現集中管理。 以設施資源可用性監控為主線,構建數據中心統一集成的設施資源及應用服務監控平臺,能夠主動、及時地發現問題,并調度資源解決問題,形成數據中心運維管理

11、主動服務的新局面。 (2)幫助定位故障,快速恢復系統運行。 建立集中的告警分析及展現平臺,提供靈活、自動化的事件處理能力。當故障產生時,可以進行故障的快速定位,發現故障原因,調度資源快速恢復系統服務,從而縮短故障解決時間,降低維護成本,提高系統整體可用性。 (3)掌握運行質量與效率,合理利用資源。 建立數據中心基礎設施管理系統平臺后,可以實時了解數據中心全部資源的負載與使用情況,根據需要從整體角度考慮資源的使用,同時可以根據業務高峰期的不同來調劑業務系統對資源的使用。 (4)規范運行管理,有序開展維護。 參照數據中心運維規范,對運維管理工作進行優化,對服務管理進行改善,將管理數據電子化,管理過

12、程規范化。根據相關制度進行運行維護管理,對內完善流程,對外提高服務,加強管理,使流程更規范更合理,使技術人員具備更高的工作效率,提高業務技術能力和解決實際問題的能力。 (5)共享運維經驗,完善知識庫。 把運維過程中產生的豐富經驗進行積累和總結,形成有效的知識庫,建立知識的共享機制,提供信息共享和交流的平臺,提高數據中心運維人員的工作效率。解決方案概述DCIM系統是在在分析了國內數據中心管理現狀和需求后,自主研發而成。秉承以客戶為中心、流程為導向的理念,實現對基礎設施資源的全面管理,完美整合了人員、技術和流程三大要素,幫助用戶以較低的成本提供穩定、優質的服務,共同實現基礎設施服務的目標。DCIM

13、系統提供了“無縫式基礎設施監控系統”功能,其系統架構清晰,采用模塊化的設計理念,各功能模塊既可獨立運行、松散耦合;亦可整體功能無縫銜接覆蓋整個業務系統,靈活的自由組合真正實現個性化的基礎設施無憂運維。DCIM系統提供一個圖形化、可定制、統一的監控管理平臺。通過它實現對基礎架構性能和告警數據的直接監控與展示,實現對用戶環境的整體運行狀態的監控管理。故障預警和管理前瞻性地發現系統的故障和性能問題,能夠快速識別、隔離、診斷和修復生產中出現的問題。前瞻性發現基礎設施和應用系統的故障。前瞻性檢測復雜的應用性能問題。基于業務的性能影響分析報告快速識別、隔離和診斷問題的起因,事故根本原因分析。對一些簡單的故

14、障問題,提供自動化修復故障的功能;對復雜的故障和性能問題,盡可能提供修復故障和改善性能的建議。提供的豐富的事件通知功能,事件通知方式包括:Mail 自動向指定郵箱發送告警郵件。短信 自動向指定手機發送告警短信。聲音 自動產生聲音告警。圖像 自動以圖標形式顯示告警事件。其它 通過二次開發可實現特殊要求的告警方式。提供監控參數化配置管理,參數超過設定閥值,產生報警信息。多層次的視圖展示直觀、準確地體現各層面的系統和業務運行狀態,分別展示不同管理層次和范圍的系統運行狀態。根據企業的業務特點和管理習慣,可將展示視圖分成一級視圖、二級視圖和三級視圖,分別展示不同管理層次和范圍的系統運行狀態(如下圖所示)

15、。集中統一的管理界面用戶在統一監控管理平臺上可查看所有視圖,提供直觀的圖形用戶界面。基于上下文環境和組合視圖,降低用戶診斷問題的時間。基于角色和權限的控制,增強管理的安全性。提供可定制化的工作區和視圖,提高操作的靈活性。開放的接口能夠集成第三方監控工具,實現將第三方監控(例如BA、安防、柴發、電力或特定應用管理工具等)完全變為監控系統的一部分。豐富的報表展示功能提供統一的報表界面,具備強大的數據展現能力:提供網絡、系統、數據庫、網絡、中間件、應用和業務運轉狀況的集中統一報表提供實時與歷史性能報表提供數據分析、展現和用戶報表定制功能預制報表模板自動周期性報表,如日報、周報、月報、季報、年報等支持

16、PDF、HTML、Excel等報表格式系統架構及實現原理系統架構本次提供的數據中心基礎設施管理系統涵蓋較多被監控的對象,覆蓋面較廣,功能復雜,系統設計遵循模塊式開發、部署,系統從底層到最上層的圖形用戶接口共分為四層,每一層實現不同的功能,系統整體的架構如下圖所示:整個系統管理架構分為采集層、處理層、管理層、交互展示層四個層次。采集層包括數據中心環境中的機房環境、暖通設備、電力設備、安防設備等被管理實體,是需要被實時監控的對象,是原始信息的來源。所有的被管理對象通過標準協議或私有協議方式向管理端提供各種性能和事件數據。處理層包含兩個功能,一是對管理實體中的數據進行數據采集;二是根據要求對數據進行

17、必要的整合。除了采集到的數據外,還可能包括各種管理數據,系統匯總后的數據、文檔數據等。系統管理的數據采集方式支持以下幾種:采用定時輪循機制獲取被監測設施的數據;監聽代理端的TRAP消息實時獲取數據;通過設備廠家提供的監控工具獲取數據;通過讀取日志文件獲取數據;通過其他廠商監控平臺獲取數據。管理層數據中心基礎設施管理系統所使用的各種業務邏輯,集中管理和協調各子系統之間的服務調用,是系統管理的核心管理平臺,主要有如下功能要點:1. 性能管理,對基礎設施實時監控,采集各種指標數據,并與告警模塊關聯,在產生異常時及時發出警告2. 告警管理,提供告警主動通知、告警統計、告警相關性分析等功能3. 統一事件

18、處理,集中收集基礎設施事件與告警,并提供告警相關性分析,輔助管理員排除故障4. 基于運維服務管理則實現運維管理功能,包括服務臺、事件管理、問題管理、變更管理、配置管理、發布管理、知識庫管理、SLA管理等模塊。交互展現層展現層是DCIM系統與運維人員之間的人機交互接口,本次系統采用全WEB化的客戶端界面,運維人員只需使用瀏覽器即可在網絡中任意一臺電腦上隨時接入系統,系統支持portal功能,可以根據用戶的需要呈現不同的功能和數據。此外,系統支持email、短信、聲光等多種方式的事件通知形式。通過北向接口及標準協議,系統可將監控、采集數據推送至第三方管理平臺及3D展示平臺。 DCIM系統功能實現基

19、礎設施集中監控 基礎設施集中監控采用一體化監控采集系統(運行在嵌入式服務器上),系統主要功能有:機房設備監控:系統自身提供各種設備通訊接入端口,連接各種設備,例如紅外,煙感、水浸、門禁、視頻、空調,電源,UPS,發電機,服務器等,一旦發現異常,自動報警,發送報警通知信息并聯動控制。動力監控支持: UPS、市電電量、配電開關、蓄電池組、精密配電柜、ATS/STS、電源支路電流、PDU機柜電源、防雷器、發電機等設備監控;環境監控支持: 空調、漏水、溫濕度、空氣質量、光照度、粉塵含量等監測;安防、消防支持: 視頻監控、門禁管理、入侵檢測、火災檢測、極早期監測;微環境監控支持:監控機柜內的溫度濕度狀態

20、、線路狀態、供電狀態,保障核心設備的穩定運行,輔助分析機房的局部環境及能源應用情況;聯動控制:對所有設備設置報警上下限,任何設備數據超出范圍,系統能夠產生報警信息,并聯動控制其他接入設備,例如錄像、噴淋、新風機、空調等。UPS監控監控內容設計對機房內UPS電源的各部件工作狀態、運行參數等進行實時監測,一旦發生故障及報警通過監控平臺發出對外報警。實現方式通過UPS設備提供的RS485(或RS232)智能接口及通訊協議,采用總線的方式將UPS的監控信號直接接入監控主機的串口,由監控平臺軟件進行UPS的實時監測。實現功能(只監不控)實時監視UPS整流器、逆變器、電池(電池健康檢測,含電壓電流等數值)

21、、旁路、負載等各部分的運行狀態與參數(能監測到的具體內容由廠家的協議決定,不同品牌、型號的UPS所監控到的內容不同)。系統可對監測到的各項參數設定越限閥值(包括上下限、恢復上下限),一旦UPS發生越限報警或故障,系統將自動產生報警事件,并第一時間發出語音、電話、短信等對外報警。提供曲線記錄,直觀顯示實時及歷史曲線,可查詢一年內相應參數的歷史曲線及具體時間的參數值(包括最大值、最小值),并可將歷史曲線導出為EXCEL格式,方便管理員全面了解UPS的運行狀況。蓄電池監測監控內容設計對機房內蓄電池的參數進行實時監測,一旦發生故障通過監控平臺發出對外報警。實現方式通過加裝蓄電池檢測儀與每節電池進行連線

22、監測,多臺蓄電池檢測儀通過RS485智能接口及通訊協議采用總線方式將信號接入監控主機的串口,由監控平臺軟件進行蓄電池的實時監測。實現功能實時監測蓄電池組的總電壓、充放電電流、電池表面溫度(可選,需配置貼片式溫度傳感器)、單體蓄電池的電壓參數。系統可對監測到的各項參數設定越限閥值(包括上下限、恢復上下限),一旦蓄電池發生故障,系統將自動產生報警事件,并第一時間發出語音、E-Mail、聲光等對外報警。提供曲線記錄,直觀顯示實時及歷史曲線,可查詢一年內相應參數的歷史曲線及具體時間的參數值(包括最大值、最小值),并可將歷史曲線導出為EXCEL格式,方便管理員全面了解蓄電池的狀況。配電參數監測監控內容機

23、房市電的供電質量好壞將直接影響機房內用電設備的安全,設計在配電柜上安裝電量儀對市電進線進行各項供電參數監測。實現方式通過在配電柜中安裝帶液晶顯示的電量儀對進線實現監測,既可在配電柜表面實時看到電量儀采集到的參數,亦可通過電量儀的RS485智能接口和通訊協議采用總線的方式將信號接入監控主機的串口,由監控平臺軟件進行市電的實時監測。實現功能實時監測市電進線三相電的相電壓、線電壓、相電流、頻率、功率因數、有功功率、無功功率等參數。系統可對監測到的各項參數設定越限閥值(包括上下限、恢復上下限),一旦市電發生越限報警,系統將自動產生報警事件,并第一時間發出語音、電話、短信等對外報警。提供曲線記錄,直觀顯

24、示實時及歷史曲線,可查詢一年內相應參數的歷史曲線及具體時間的參數值(包括最大值、最小值),并可將歷史曲線導出為EXCEL格式,方便管理員全面了解市電的供電狀況。發電機監測監控內容設計對(柴油、燃氣)發電機各部件的工作狀態及運行參數進行實時監測,一旦發生故障及報警通過監控平臺發出對外報警。實現方式通過發電機設備提供的RS485(或RS232)智能接口及通訊協議,采用總線的方式將發電機的監控信號直接接入監控主機的串口,由監控平臺軟件進行發電機的實時監測。實現功能實時監視發電機的輸出電壓、電流、功率、油壓、水溫、轉速等參數(能監測到的具體內容由廠家的協議決定,不同品牌、型號的發電機所監控到的內容不同

25、)。系統可對監測到的各項參數設定越限閥值(包括上下限、恢復上下限),一旦發電機發生越限報警或故障,系統將自動產生報警事件,并第一時間發出語音、電話、短信等對外報警。提供曲線記錄,直觀顯示實時及歷史曲線,可查詢一年內相應參數的歷史曲線及具體時間的參數值(包括最大值、最小值),并可將歷史曲線導出為EXCEL格式,方便管理員全面了解發電機的運行狀況。精密空調(加濕器)監控監控內容機房溫度、濕度出現異常時,將導致機房其他設備運行所需的環境失去保障,因此設計對各機房內空調(加濕器)的運行狀態和參數進行實時監測,同時可對空調(加濕器)進行遠程的開關機控制。實現方式通過空調(加濕器)設備提供的RS485智能

26、接口及通訊協議,采用總線的方式將空調的監控信號通過串口服務器轉換為網絡信號接入監控主機的網口,由監控平臺軟件進行空調的實時監測。實現功能實時監視空調(加濕器)壓縮機、風機、水泵、加熱器、加濕器、去濕器、濾網、回風溫度和濕度等的運行狀態與參數,并可對空調實現遠程開關機的控制(能監測到的具體內容由廠家的協議決定,不同品牌、型號的精密空調所監控到的內容不同)。系統可對監測到的各項參數設定越限閥值,一旦精密空調(加濕器)發生故障,系統將產生報警事件,并第一時間發出語音、電話、短信等對外報警。提供曲線記錄,直觀顯示實時及歷史曲線,可查詢一年內相應參數的歷史曲線及具體時間的參數值(包括最大值、最小值),并

27、可將歷史曲線導出為EXCEL格式,方便管理員全面了解精密空調(加濕器)的運行狀況。環境監控(溫濕度、風速、氫氣)在機房中有大量的服務器,設備對溫、濕度等運行環境的要求非常嚴格,按照機房功能區域的劃分及的實際面積,同時結合設備的密集情況,在機房內安裝多個溫濕度、風速、氫氣濃度傳感器,以實時檢測機房和重要設備區域內的溫、濕度、風速、氫氣濃度。溫濕度、風速、氫氣濃度傳感器將把檢測到的數值實時傳送到現場嵌入式服務器中,并在監控界面上以圖形形式直觀地表現出來。一旦溫、濕度值、風速、氫氣濃度越限,系統將自動報警框,提示管理員通過調節空調溫、濕度值給機房設備提供最佳運行環境。并且還可以將一段時間內機房里的溫

28、濕度、風速、氫氣濃度值通過歷史曲線直觀地表現出來,以方便管理人員進行查看。溫濕度傳感器可與空調系統實現聯動,當機房的溫度越限時,系統可聯動設定空調溫度及啟動空調進行工作等聯動動作。 機房內對溫濕度值、風速、氫氣濃度監控,一旦發生警情及時通知管理人員,使損失降到最低。漏水檢測鑒于機房設備的重要性,在機房中安裝美國泰科的定位式漏水檢測系統,用于監測機房的空調有無漏水事件發生,確保設備不受水浸的危害。機房內精密空調的進出水管均有可能出現漏水,這將威脅著機房內各設備的安全。設計通過在有可能造成漏水的水源附近安裝1套非定位式漏水監測設備,在精密空調底下四周共敷設1根的漏水感應繩,一旦有水泄漏碰到漏水監測

29、繩,感應繩通過漏水控制器將信號傳輸到現場嵌入式服務器上,同時在集中管理服務器上形象、準確的輸出告警信息。消防(極早期)監測監控內容設計對機房內由消防控制箱提供的干接點信號(或在機房內安裝不同點位點的極早期煙霧報警器)進行實時火警監測,一旦發生報警通過監控平臺發出對外報警。實現方式采用采集消防控制箱(極早期煙霧報警器)提供的干接點信號,將信號接入監控主機的串口,由監控平臺軟件進行消防的實時監測。實現功能實時監測機房內的消防火警(極早期煙霧報警器)信號,一旦發生報警,系統自動產生報警事件,并第一時間發出語音、電話、短信等對外報警。系統部署方案及軟硬件配置要求分布式部署方案 本次系統需要在一個系統中

30、集中監控機房環境、網絡、服務器等。項目的采集服務器設計容量需按照100臺規模的擴展空間進行考慮,保證在系統增長過程中網管系統可以常規擴展。系統采取分布式多probe部署方式進行實施。 本系統是由管理節點(Manage Node)、探針節點(Probe Node)和管理終端三大部分組成,管理節點的主要功能如下:負責定義監控策略,并將監控策略準確下發到探針節點,探針節點根據收到的監控策略對被監控的對象進行監控和數據采集負責接收探針節點發送過來的監控對象的狀態數據并將這些數據集中存入數據庫,并提供最新一次采集數據的內存緩存負責接收探針節點發送過來的告警,并執行告警動作,比如發送短信、發送郵件、聲音告警等,及時通知IT管理人員 探針節點可以有多個,探針節點的主要功能如下:負責監控并采集監控對象的各種指標數據,根據被監控的對象不同,采集的指標也不一樣,采集完成后,將這些數據通

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論