信息系統運維方案_第1頁
信息系統運維方案_第2頁
信息系統運維方案_第3頁
信息系統運維方案_第4頁
信息系統運維方案_第5頁
已閱讀5頁,還剩15頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、目目 錄錄1 1運維運維服務容服務容.3 31.1服務目標.31.2信息資產統計服務 .31.3網絡、安全系統運維服務.51.4主機、存儲系統運維服務.71.5數據庫系統運維服務 .101.6中間件運維服務 .112 2運維服務流程運維服務流程.12123 3服務管理制度規服務管理制度規.14143.1服務時間.143.2行為規.143.3現場服務支持規 .153.4問題記錄規.154 4應急服務響應措施應急服務響應措施.17174.1應急基本流程.174.2預防措施.174.3突發事件應急策略 .181 1 服務容服務容1.11.1服務目標服務目標運行維護服務包括,信息系統相關的主機設備、操

2、作系統、數據庫和存儲設備及其他信息系統的運行維護與安全防服務,保證用戶現有的信息系統的正常運行,降低整體管理成本,提高網絡信息系統的整體服務水平。同時根據日常維護的數據和記錄,提供用戶信息系統的整體建設規劃和建議,更好的為用戶的信息化發展提供有力的保障。用戶信息系統的組成主要可分為兩類:硬件設備和軟件系統。硬件設備包括網絡設備、安全設備、主機設備、存儲設備等;軟件設備可分為操作系統軟件、典型應用軟件(如:數據庫軟件、中間件軟件等) 、業務應用軟件等。通過運行維護服務的有效管理來提升用戶信息系統的服務效率,協調各業務應用系統的部運作,改善網絡信息系統部門與業務部門的溝通,提高服務質量。結合用戶現

3、有的環境、組織結構、IT 資源和管理流程的特點,從流程、人員和技術三方面來規劃用戶的網絡信息系統的結構。將用戶的運行目標、業務需求與 IT 服務的相協調一致。信息系統服務的目標是,對用戶現有的信息系統基礎資源進行監控和管理,及時掌握網絡信息系統資源現狀和配置信息,反映信息系統資源的可用性情況和健康狀況,創建一個可知可控的 IT 環境,從而保證用戶信息系統的各類業務應用系統的可靠、高效、持續、安全運行。服務項目圍覆蓋的信息系統資源以下方面的關鍵狀態及參數指標:運行狀態、故障情況配置信息可用性情況及健康狀況性能指標統計運維數椐、提供信息系統管理和工作報告、歸納總結并提供用戶想了解的數椐報告1.21

4、.2信息資產統計服務信息資產統計服務此項服務為基本服務,包含在運行維護服務中,幫助我們對用戶現有的信息資產情況進行了解,更好的提供系統的運行維護服務。服務容包括:硬件設備型號、數量、版本等信息統計記錄軟件產品型號、版本和補丁等信息統計記錄網絡結構、網絡路由、網絡 IP 地址統計記錄綜合布線系統結構圖的繪制其它附屬設備的統計記錄硬件設備清單如下表統計:1.31.3網絡、安全系統運維服務網絡、安全系統運維服務從網絡的連通性、網絡的性能、網絡的監控管理三個方面實現對網絡系統的運維管理。網絡、安全系統基本服務容:序號序號服務模塊服務模塊容描述容描述提供方提供方1現場備件安裝配合用戶進行,按備件到達現場

5、時間工程師到達現場2現場軟件升級首先分析軟件升級的必要性和風險,配合用戶進行軟件升級3現場故障診斷按服務級別:724 小時 58 小時4遠程技術支持724 小時5問題管理系統對遇到的問題進行匯總和發布網絡核心交換機巡視典型作業計劃書網絡核心交換機巡視典型作業計劃書系統管理單位: 維保單位: 設備名: 設備型號:管理 IP:檢查容檢查容參考標準參考標準檢查結果檢查結果檢查結論檢查結論巡視方法描述巡視方法描述巡檢周期巡檢周期電源運行狀態正常 異常風扇運行狀態正常 異常硬件運行狀態模塊運行狀態正常 異常VLAN 狀態正常 異常配置 狀態正常 異常系統運行狀態檢查OSPF 狀態正常 異常日志檢查日志

6、狀態正常 異常正常 異常正常 異常其他檢查容正常 異常(1)(1) 用戶現場技術人員值守用戶現場技術人員值守根據用戶的需求提供長期的用戶現場技術人員值守服務,保證網絡的實時連通和可用,保障接入交換機、匯聚交換機和核心交換機的正常運轉?,F場值守的技術人員每天記錄網絡交換機的端口是否可以正常使用,網絡的轉發和路由是否正常進行,交換機的性能檢測,進行整體網絡性能評估,針對網絡的利用率進行優化并提出網絡擴容和優化的建議?,F場值守人員還進行安全設備的日常運行狀態的監控,對各種安全設備的日志檢查,對重點事件進行記錄,對安全事件的產生原因進行判斷和解決,及時發現問題,防患于未然。同時能夠對設備的運行數據進行

7、記錄,形成報表進行統計分析,便于進行網絡系統的分析和故障的提前預知。具體記錄的數據包括:配置數據性能數據故障數據(2)(2) 現場巡檢服務現場巡檢服務現場巡檢服務是對客戶的設備及網絡進行全面檢查的服務項目,通過該服務可使客戶獲得設備運行的第一手資料,最大可能地發現存在的隱患,保障設備穩定運行。同時,將有針對性地提出預警及解決建議,使客戶能夠提早預防,最大限度降低運營風險。巡檢包括的容如下:編號編號巡檢容巡檢容硬件運行狀態檢查項目硬件運行狀態檢查項目單板狀態檢查電源模塊狀態檢查風扇狀態檢查整機指示燈狀態檢查機框防塵網檢查機房溫度、濕度檢查1設備地線檢查軟件運行情況檢查項目軟件運行情況檢查項目設備

8、運行情況檢查網絡報文分析設備對接運行狀況檢查2路由運行情況檢查網絡整體運行情況調查網絡整體運行情況調查3網絡運行問題調查網絡變更情況調查網絡歷史故障調查(3)(3) 網絡運行分析與管理服務網絡運行分析與管理服務網絡運行分析與管理服務是指工程師通過對網絡運行狀況、網絡問題進行周期性檢查、分析后,為客戶提出指導性建議的一種綜合性高級服務,其容包括: 服務容服務容服務優點服務優點向客戶提供網絡專家。保證重大問題第一連線至網絡專家。網絡專家組每周與客戶進行不少于 2 小時的技術交流以最小成本保證及時解答客戶關心的技術問題,并就某一領域技術問題展開深層次溝通。每月向客戶提交 CASE 匯總分析報告,并可

9、擴展到每年 17 次(月度、季度、年度)使客戶了解網絡歷史故障情況以及故障預防建議,最大程度減少網絡故障隱患,更高效的進行網絡管理。(4)(4) 重要時刻專人值守服務重要時刻專人值守服務保證重要時刻設備穩定運行對客戶成功尤為關鍵,因此,可對客戶提供重要時刻的專人現場值守支持,包括政府客戶的重大會議期間、金融客戶的年終結算日、運營商客戶的生產網重大割接或其它任何客戶認為可能對其業務運營產生重大影響的時刻。如需專人值守,客戶需至少提前 3 周與授權服務商客戶服務經理聯系。對每位合約客戶,授權服務商均需按事先合同約定提供專人值守服務。客戶如需超出合同約定圍的更多值守支持,需額外支付相應人力和差旅費用

10、。1.41.4主機、存儲系統運維服務主機、存儲系統運維服務主機、存儲系統的運維服務包括:主機、存儲設備的日常監控,設備的運行狀態監控,故障處理,操作系統維護,補丁升級等容。主機存儲系統基本服務容:序號序號服務模塊服務模塊容描述容描述提供方提供方1現場備件安裝配合用戶進行。按備件到達現場時間工程師到達現場2補丁服務消除軟件漏洞給系統帶來的安全隱患,并對安裝補丁所引起的系統連鎖反應進行合理的平衡。3升級服務對系統進行軟件或硬件的升級,以改進、完善現有系統或消除現有系統的漏洞。4現場故障診斷按服務級別:724 小時 58 小時5遠程技術支持724 小時6問題管理系統對遇到的問題進行匯總和發布7系統優

11、化對客戶系統的括主機、存儲設備、操作系統、提供優化服務?,F場值守人員可進行監控管理的容包括:CPU 性能管理;存使用情況管理;硬盤利用情況管理;系統進程管理;主機性能管理;實時監控主機電源、風扇的使用情況及主機機箱部溫度;監控主機硬盤運行狀態;監控主機網卡、陣列卡等硬件狀態;監控主機 HA 運行狀況;主機系統文件系統管理;監控存儲交換機設備狀態、端口狀態、傳輸速度;監控備份服務進程、備份情況(起止時間、是否成功、出錯告警) ;監控記錄磁盤陣列、磁帶庫等存儲硬件故障提示和告警,并及時解決故障問題;對存儲的性能(如高速緩存、光纖通道等)進行監控。小型機系統巡檢典型作業計劃書(小型機系統巡檢典型作業

12、計劃書(HPHP 服務器部分)服務器部分)系統管理單位: 設備名: 設備型號設備序列號管理 IP:檢查容檢查容參考標準參考標準檢查結果檢查結果狀態是否正常狀態是否正常巡檢方法描述巡檢方法描述巡檢周期巡檢周期電源指示燈正常 異常面板指示燈正常 異常置磁帶機正常 異常CPU 狀態正常 異常存狀態正常 異常磁盤狀態正常 異常網卡狀態正常 異常硬件運行狀態HBA 卡運行狀態正常 異常系統日志正常 異常Mail正常 異常文件系統,包括磁盤卷剩余空間正常 異常硬件檢測正常 異常交換分區正常 異常固件版本正常 異常補丁包版本正常 異常系統鏡像正常 異常存儲磁盤正常 異常存儲驅動正常 異常系統檢查進程狀態正常

13、 異常CPU 利用率正常 異常存利用率正常 異常系統性能檢查磁盤 I/O 性能正常 異常數據庫安裝目錄正常 異常數據庫運行狀態數據庫進程狀態正常 異常集群進程狀態正常 異常集群檢查集群日志正常 異常存儲設備故障燈狀態正常 異常存儲檢查SAN 交換機端口狀正常 異常小型機系統巡檢典型作業計劃書(小型機系統巡檢典型作業計劃書(HPHP 服務器部分)服務器部分)系統管理單位: 設備名: 設備型號設備序列號管理 IP:檢查容檢查容參考標準參考標準檢查結果檢查結果狀態是否正常狀態是否正常巡檢方法描述巡檢方法描述巡檢周期巡檢周期態存儲交換機環境狀態正常 異常系統故障報告正常 異常1.51.5數據庫系統運維

14、服務數據庫系統運維服務數據庫運行維護服務是包括主動數據庫性能管理,數據庫的主動性能管理對系統運維非常重要。通過主動式性能管理可了解數據庫的日常運行狀態,識別數據庫的性能問題發生在什么地方,有針對性地進行性能優化。同時,密切注意數據庫系統的變化,主動地預防可能發生的問題。數據庫運行維護服務還包括快速發現、診斷和解決性能問題,在出現問題時,及時找出性能瓶頸,解決數據庫性能問題,維護高效的應用系統。數據庫運行維護服務,主要工作是使用技術手段來達到管理的目標,以系統最終的運行維護為目標,提高用戶的工作效率。具體數據庫運行維護監控的基本服務容包括:序號序號服務模塊服務模塊容描述容描述提供方提供方1Ora

15、cle 數據庫7*24 支持服務每周 7 天,每天 24 小時支持中心,電子答詢,以滿足業務發展的需要。Oracle 產品技術專家直接同客戶對話,幫助解決客戶提出的疑難問題。根據問題的嚴重程度,將優先解決客戶認為是關鍵而緊急的任務。對客戶提出的一般性問題進行技術咨詢、指導。定期的客戶管理報告, 避免問題再度發生。序號序號服務模塊服務模塊容描述容描述提供方提供方2Oracle 數據庫產品現場服務響應數據庫宕機數據壞塊影響業務不能進行的產品問題軟件產品的更新及維護。3Oracle 數據庫產品系統健康檢查對系統的配置及運作框架提出建議,以幫助您得到一個更堅強可靠的運作環境降低系統潛在的風險,包括數據

16、丟失、安全漏洞、系統崩潰、性能降低及資源緊檢查并分析系統日志及跟蹤文件,發現并排除數據庫系統錯誤隱患檢查數據庫系統是否需要應用最新的補丁集檢查數據庫空間的使用情況協助進行數據庫空間的規劃管理檢查數據庫備份的完整性監控數據庫性能確認系統的資源需求明確您系統的能力及不足優化 Oracle Server 的表現通過改善系統環境的穩定性來降低潛在的系統宕機時間4Oracle 數據庫產品性能調優分析用戶的應用類型和用戶行為評價并修改 ORACLE 數據庫的參數設置評價并調整 ORACLE 數據庫的數據分布評價應用對硬件和系統的使用情況,并提出建議利用先進的性能調整工具實施數據庫的性能調整培訓用戶有關性能

17、調整的概念提供用戶完整的性能調整報告和解決方法1.61.6中間件運維服務中間件運維服務中間件管理是指對 BEA Weblogic、MQ 等中間件的日常維護管理和監控工作,提高對中間件平臺事件的分析解決能力,確保中間件平臺持續穩定運行。中間件監控指標包括配置信息管理、故障監控、性能監控。執行線程:監控 WebLogic 配置執行線程的空閑數量。JVM 存:JVM 存曲線正常,能夠及時的進行存空間回收。JDBC 連接池:連接池的初始容量和最大容量應該設置為相等,并且至少等于執行線程的數量,以避免在運行過程中創建數據庫連接所帶來的性能消耗。檢查 WEBLOG 日志文件是否有異常報錯如果有 WEBLO

18、G 集群配置,需要檢查集群的配置是否正常。2 2 運維服務流程運維服務流程建議用戶采用的服務方式為兩種:一種為技術人員現場值守,另一種是定期巡檢結合故障現場服務。技術人員現場值守運行維護服務的基本操作流程如下圖所示:IT資源情況匯總故障記錄技術人員用戶現場值守,日常狀態監控提交給用戶信息系統運行維護報告和系統運行分析報告記錄到維護數據庫備件更換故障現場解決主動式信息系統性能偵測故障現場解決系統運維日志定期巡檢結合故障現場運行維護服務的基本操作流程如下圖所示:技術專家7*24小時服務響應IT資源情況匯總用戶故障報修備件更換技術人員現場故障解決硬件設備故障軟件故障故障記錄用戶現場巡檢MICROSO

19、FT CORPORATION用戶簽署故障解決單提交給用戶信息系統運行維護報告和系統運行分析報告巡檢記錄及系統可用性分析記錄到運行維護數據庫用戶3 3 服務服務管理制度規管理制度規3.13.1服務時間服務時間(1) 接收服務請求和咨詢:在 5*8 小時工作時間設置由專人職守的熱線,接聽部的服務請求,并記錄服務臺事件處理結果。(2) 在非工作時間設置有專人 7*24 小時接聽的移動熱線,用于解決部的技術問題以及接聽 7*24 小時機房監控人員的機房突發情況匯報。(3) 服務響應時間:故障級別故障級別響應時間響應時間故障解決時間故障解決時間I I 級:級:屬于緊急問題;其具體現象為:系統崩潰導致業務

20、停止、數據丟失。30 分鐘,2 小時提交故障處理方案12 小時以II II 級:級:屬于嚴重問題;其具體現象為:出現部分部件失效、系統性能下降但能正常運行,不影響正常業務運作。30 分鐘,2 小時提交故障處理方案24 小時以IIIIII 級:級:屬于較嚴重問題;其具體現象為:出現系統報錯或警告,但業務系統能繼續運行且性能不受影響。30 分鐘,2 小時提交故障處理方案48 小時以IVIV 級:級:屬于普通問題;其具體現象為:系統技術功能、安裝或配置咨詢,或其他顯然不影響業務的預約服務。30 分鐘,2 小時提交故障處理方案5 天技術支持人員在解決故障時,會最大限度保護好數據,做好故障恢復的文檔,力

21、爭恢復到故障點前的業務狀態。對于“系統癱瘓,業務系統不能運轉”的故障級別,如果不能于 12 小時解決故障,將在 16 小時提出應急方案,確保業務系統的運行。故障解決后 24 小時,提交故障處理報告。說明故障種類、故障原因、故障解決中使用的方法及故障損失等情況。3.23.2行為規行為規(1) 遵守用戶的各項規章制度,嚴格按照用戶相應的規章制度辦事。(2) 與用戶運行維護體系其他部門和環節協同工作,密切配合,共同開展技術支持工作。(3) 出現疑難技術、業務問題和重大緊急情況時,及時向負責人報告。(4) 現場技術支持時要精神飽滿,穿著得體,談吐文明,舉止莊重。接聽時要文明禮貌,語言清晰明了,語氣和善

22、。(5) 遵守原則。對被支持單位的網絡、主機、系統軟件、應用軟件等的密碼、核心參數、業務數據等負有責任,不得隨意復制和傳播。3.33.3現場服務支持規現場服務支持規運維服務人員要做到耐心、細心、熱心的服務。工作要做到事事有記錄、事事有反饋、重大問題及時匯報。嚴格遵守工作作息時間,嚴格按照服務工作流程操作。(1) 現場支持工程師應著裝整潔、言行禮貌大方,技術專業,操作熟練、嚴謹、規;現場支持時必須遵守用戶單位的相關規章制度。(2) 現場支持工程師在進行現場支持工作時必須在保證數據和系統安全的前提下開展工作。 (3) 現場支持時出現暫時無法解決的故障或其他新的故障時,應告知用戶并及時上報負責人,尋

23、找其他解決途徑。(4) 故障解決后,現場支持工程師要詳細記錄問題的發生時間、地點、提出人和問題描述,并形成書面文檔,必要時應向用戶介紹故障出現的原因及預防方法和解決技巧。3.43.4問題記錄規問題記錄規根據使用人員提出問題的類別,將問題分為咨詢類問題和系統缺陷類問題二類:咨詢類問題是指通過服務熱線或現場解疑等方式能夠當場解決用戶提出的問題,具有問題解答直接、快速和實時的特點,該問題到現場支持人員處即可中止,對于該類問題的記錄可使用咨詢類問題記錄模版進行記錄。系統缺陷類問題是指使用人員提出的問題涉及到系統相應環節的確認修改,需要經過逐級提交、診斷、確認、處理和回復等環節,處理解決需要項目組的分析

24、確認,問題有解決方案后,將解決方案反饋給用戶。具體提交流程如下:(1) 問題提交。應用信息系統的用戶發現屬于系統缺陷類的問題時,填寫系統缺陷類問題提交單,提交服務支持中心。(2) 問題分析。服務中心接到用戶提交的問題單,要組織相應人員對問題單中描述的問題進行分析研判,確定問題的類型(技術問題、業務問題或者操作問題)。屬于技術問題,提交服務中心技術人員對存在的問題提出具體的處理意見和建議;屬于業務問題,提交服務中心業務人員進行處理;屬于操作問題,可安排相關人員對問題提出人進行解釋,并將系統缺陷類問題提交單轉為系統咨詢類問題提交單。(3) 問題確認、解決。服務中心的技術人員和業務人員收到系統缺陷類

25、問題提交單后,對提交的問題進行歸類匯總和分析、確認。可以解決的,明確問題解決的具體處理建議和措施,經主管領導簽字同意后,交實施人員進行解決方案的實施。服務人員確認是否解決,并將解決方法附在系統缺陷類問題提交單上反饋給問題提出人員。(4) 問題上報。服務人員收到經業務或技術人員確認的系統缺陷類問題提交單后,上報服務中心。(5) 問題回復。服務中心根據提交問題的進行分析,制定解決方案并進行實施的解決,同時做好變更記錄。將解決方案匯總后及時向問題提交單位或問題交辦單位作出回復,并將分析過程和問題產生原因一并提交。4 4 應急服務響應措施應急服務響應措施針對項目制定了詳盡的設計、應急處理預案,整個流程

26、嚴謹而有序。但是,在服務維護過程中,意外情況將難以完全避免。下面,我們將對項目實施的突發風險進行詳細分析,并且針對各類突發事件,設計了相應的預防與解決措施,同時提供了完整的應急處理流程。4.14.1應急基本流程應急基本流程出現突發情況報項目經理項目經理協調、處理結束問題報告單采取措施避免類似事件發生處理記錄情況通報單維護服務應急處理流程4.24.2預防措施預防措施針對上門服務過程中可能遇到的各種各樣的風險,針對一些可能出現的情況,制定了一系列預防處理措施,舉例如下:類型類型事件事件預防措施預防措施處理處理無法啟動軟件可執行文件上門人員提前準備好各類需維護軟件安裝程序將應用軟件數據文件備份后,重

27、新安裝應用軟件軟件打開過程中或運行中異常錯誤關閉上門人員準備好安裝程序,操作系統優化和修判斷出錯原因,備份數據,采取相關修復措施類型類型事件事件預防措施預防措施處理處理補軟件,查殺病毒軟件使用者本機操作系統異常或系統資源占用嚴重準備好系統檢查程序及修補程序,以及查殺病毒軟件告知使用者錯誤原因可能類型,提出解決方案,經使用者認可后采取相應措施操作系統B/S 結構系統,IE 瀏覽器異?;驘o法下載控件準備流氓軟件清理程序、修復瀏覽器軟件、查殺病毒軟件檢查 IE 瀏覽器選項設置,分析原因進行修復網絡或服務器B/S 結構系統網絡流量異常或服務器登錄異常判斷服務器是否異常,否則準備殺毒軟件檢查網絡流量,流量異常小則報修網絡服務商,流量異常大則查殺病毒4.34.3突發事件應急策略突發事件應急策略系統運維應急方案是對中斷或嚴重影響業務的故障,如宕機、數據丟失、業務中斷等,進行快速響應和處理,在最短時間恢復業務系統,將損失降到最低。在系統維護過程中,突發事件的出現將是很難完全避免的,針對這種情況,設計了完善的突發事件應急策略。系統巡檢人員要定期規檢查各硬件設備的運轉情況和應用軟件

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論