華為服務器日常維護及故障處理介紹V_第1頁
華為服務器日常維護及故障處理介紹V_第2頁
華為服務器日常維護及故障處理介紹V_第3頁
華為服務器日常維護及故障處理介紹V_第4頁
華為服務器日常維護及故障處理介紹V_第5頁
已閱讀5頁,還剩84頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、修訂記錄課程編碼適用產品產品版本課程版本ISSUE所有服務器V1.1開發/優化者時間審核人開發類型(新開發/優化)徐長明2014.10董挺/李文海優化本頁不打印華為服務器日常維護和故障處理介紹目標學完本課程后,您將能夠:掌握服務器日常巡檢及日常維護操作掌握服務器故障診斷的思路熟悉服務器日志信息收集方法掌握服務器常見故障處理方法熟悉服務器部件更換流程及注意事項掌握服務器日常問題求助渠道目錄服務器日常維護1.1 維護準備1.2 日常巡檢1.3 軟件升級服務器故障處理2.1 故障診斷流程2.2 故障信息收集方法2.3 故障定位方法2.4 部件更換流程及注意事項2.5 求助渠道1.1 維護準備-硬件工

2、具服務器日常維護硬件工具一覽表(按需提前準備)。名稱說明浮動螺母安裝條用于牽引浮動螺母,使浮動螺母安裝在機柜的固定導槽孔位上。螺絲刀用于拆裝螺釘,一般為一字、十字、六棱套筒等。斜口鉗用于剪切絕緣套管、電纜扎線扣等。萬用表用于測量電阻、電壓,檢查導通關系等。防靜電腕帶用于接觸或操作設備和器件,可防止靜電放電。防靜電手套用于插拔單板、手拿單板或其他精密儀器等,可防止靜電放電。線扣用于綁扎線纜。梯子用于高處作業。便攜機自備網線,用于通過網絡訪問管理網口或業務網口,捕獲數據。串口線服務器側串口接口一般為DB9或RJ45。溫度計/濕度計用于監控機房溫度、濕度是否滿足設備穩定運行環境。1.1 維護準備-軟

3、件工具服務器日常維護軟件工具一覽表(按需提前準備)名稱說明SSH Secure Shell Client開源工具,用于Windows客戶端命令行方式訪問Linux系統以及文件傳輸。UTest Tools服務器U盤檢測工具,用于檢測服務器硬盤、內存、SSD卡、BBU電池、出廠拷機等。Inspect Tools用于服務器日常遠程批量巡檢以及帶外日志收集。Fusion Upgrade Tools用于批量升級服務器固件iMana/BIOS,以及BIOS批量設定。Winrar第三方軟件,需自備,用于壓縮文件或解壓。Office第三方軟件,需自備,用于編輯Word、Excel等文檔。bmc_collect

4、.shmm_collect.sh用于服務器帶外日志收集(聯系TAC工程師獲取)。Collection.shWinInfoCollection.bat用于Linux/Windows日志收集(聯系TAC工程師獲取)。1.1 維護準備-軟件工具服務器日常維護軟件工具一覽表(按需提前準備)名稱說明SSH Secure Shell Client開源工具,用于Windows客戶端命令行方式訪問Linux系統以及文件傳輸。UTest Tools服務器U盤檢測工具,用于檢測服務器硬盤、內存、SSD卡、BBU電池、出廠拷機等。Inspect Tools用于服務器日常遠程批量巡檢以及帶外日志收集。Fusion U

5、pgrade Tools用于批量升級服務器固件iMana/BIOS,以及BIOS批量設定。Winrar第三方軟件,需自備,用于壓縮文件或解壓。Office第三方軟件,需自備,用于編輯Word、Excel等文檔。bmc_collect.shmm_collect.sh用于服務器帶外日志收集(聯系TAC工程師獲取)。Collection.shWinInfoCollection.bat用于Linux/Windows日志收集(聯系TAC工程師獲取)。1.1 維護準備-必讀資料服務器日常維護前必讀資料如下表)名稱說明資料獲取用戶指南各型號服務器的用戶指南,介紹服務器產品的結構、規格和安裝。資料獲取方式:通

6、過瀏覽器訪問鏈接/enterprise/productsupport?lang=zh&pid=9856522&idAbsPath=7919749|9856522,進入相應服務器目錄。維護指南各型號服務器的維護指南,介紹服務器產品的結構、規格和安裝。告警參考各型號服務器的告警參考,介紹iMana/MM所支持的服務器產品各類型告警信息及處理建議。機房規范客戶機房日常維護規范,現場維護時必須嚴格遵守客戶機房管理規范。以實際客戶機房規范為準。目錄服務器日常維護1.1 維護準備1.2 日常巡檢1.3 軟件升級服務器故障處理2.1 故障診斷流程2.2 故障信息收集方法2.3 故障定位方法2.4 部件更換流

7、程及注意事項2.5 求助渠道1.2 日常巡檢-意義服務器日常維護巡檢目的如下:及時發現并消除設備運行過程中可能存在的缺陷或隱患,并采取適當的措施予以恢復和處理,維持設備的健康水平,降低設備的故障率。實時掌握設備和網絡的運行狀況,了解設備和網絡的運行趨勢,提高維護人員對突發事件的處理效率。 通過定期維護和保養設備,使設備的健康水平長期處于良好狀態,確保系統能夠安全、穩定、可靠的運行。通過定期檢查、備份、測試、清潔等手段,及時發現設備在運行過程中出現的自然老化、功能失效、性能下降等缺陷,并采取適當的措施及時予以處理,以消除隱患,預防事故的發生。1.2 日常巡檢-基本原則采用唯一的標識或名稱創建問題

8、解決記錄日志一次只做一個改動,并記錄結果使用華為提供的工具、資源、軟件清楚操作系統和應用軟件的更新制定可靠的備份計劃現場保留備件,故障時及時更換保存最新網絡拓撲圖方便解決問題1.2 日常巡檢-現場巡檢現場巡檢包含機房環境和設備運行狀態兩方面。機房環境巡檢常見安全標識參考下表。圖標說明提示危險用電器件。請注意防止電擊危險。請勿打開此器件。警告:所有帶有此標識的器件都存在電擊危險,被標識區域沒有可維護的器件!提示危險器件。該器件可能造成電擊危險。被標識區域沒有可維護器件,請勿打開此器件。警告:請注意防止電擊危險,請勿打開此器件!提示高溫表面。警告:小心燙傷,請等器件降溫后再接觸!提示危險用電器件。

9、該標識表示誤操作可能會導致設備損壞或人身傷害。該標識是設備外部的接地標識。接地電纜的兩端分別接在不同設備上,表示設備必須通過接地點接地,保證設備正常運行及操作人員的人身安全。該標識是設備內部的接地標識。接地電纜的兩端都接在同一個設備上的不同組件上,表示設備必須通過接地點接地,保證設備正常運行及操作人員的人身安全。該標識表示為靜電敏感區,請勿徒手觸摸設備。在該區域操作時,請采取嚴格的防靜電措施,例如佩戴防靜電腕帶或者防靜電手套。1.2 日常巡檢-現場巡檢機房環境檢查主要包括機房內部的溫濕度、供電等序號技術指標項結果參考1工作溫度10 35(41 95)2.存儲溫度-40+65(-40 149)3

10、溫度變化率15/h(59/h)4工作濕度8% RH 90% RH(無冷凝)5存儲濕度5% RH 95% RH(無冷凝)6工作海拔高度3000m7電源交流供電:輸入電壓范圍100V AC 240V AC,50/60Hz直流供電:標稱-48VDC,電壓波動范圍38.4V57.6V DC1.2 日常巡檢-現場巡檢服務器相關線路布局巡檢,參考下表,如需插拔線纜,務必在客戶授權后方可進行。序號檢查內容檢查結果備注1線纜總布放強電、弱電線應該分別從機柜兩邊走線,即業務、電源線分離。特別注意光纖是否有被小角度彎曲或強行拉伸。2電源線布放整齊、美觀、有序,盡量與機房內其余機柜布線風格保持一致,電源線禁止挽圈。

11、3業務線布放整齊、美觀、有序,盡量與機房內其余機柜布線風格保持一致。4地線連接服務器設備要按規定接地。5線纜標簽標注、粘貼標簽字體清晰,標注明確且含義準確,粘貼牢固。6電源線插頭檢查檢查服務器的電源線是否牢固插入電源插座。7信號線插頭檢查檢查服務器、交換機等設備之間的信號、數據線連接是否牢固。1.2 日常巡檢-現場巡檢服務器運行狀態巡檢,參考下表序號檢查方式備注1服務器指示燈巡檢華為服務器前后面板分別提供UID按鈕/指示燈、HEALTHY健康指示燈、網口指示燈、電源開關按鈕指示燈等。通過觀察指示燈狀態可以初步診斷當前服務器的狀態。指示燈狀態說明參考服務器產品文檔。2服務器iMana健康信息巡檢

12、如果客戶現場有管理網絡,則使用客戶管理網絡進行巡檢,否則用網線連接iMana管理網口和便攜機網口。登錄iMana Web對健康狀態進行查詢,相關告警信息參考iMana告警參考進行分析處理。3MM管理模塊健康信息巡檢如果客戶現場有管理網絡,則使用客戶管理網絡進行巡檢,否則用網線連接主用MM管理模塊網口和便攜機網口。通過MM Web界面查看刀片服務器MM管理模塊、服務器刀片、交換模塊、電源模塊、風扇模塊的健康狀態。相關告警信息參考MM告警參考進行分析處理。1.2 日常巡檢-現場巡檢服務器現場巡檢后輸出報告,參考下表項目名稱XXX服務器設備巡檢清單以及報修聯絡方式巡檢人/聯系方式巡檢時間巡檢地址相關

13、保障人員現場接口人故障主接口人我司現場值守工程師報修電話企業中國區:4008229999 企業全球TAC:/en/about/contact/index.htm運營商中國區TAC:客戶400830218/800830218/02986360000 工程師/合作方:8008303118/02981770177 運營商全球TAC:02981770999主機序列號/單板序列號設備所在位置巡檢項巡檢內容巡檢檢查項巡檢結果備注前面板健康指示燈系統故障指示燈狀態紅色常亮或紅色閃爍表明異常,綠色表示工作正常正常 不正常前面板電源按鈕/指示燈系統電源指示燈狀態綠色常亮為正常運行正常 不正常前面板硬盤指示燈硬盤

14、狀態指示燈狀態綠色常亮或閃爍為正常,黃色或不亮為異常正常 不正常后面板指示燈交流電源指示燈(電源模塊)綠色常亮為正常運行,不亮為無電源輸入正常 不正常風 扇風扇運行狀態風扇很響或異響為異常,平穩運行為正常正常 不正常網線以及其他線纜線纜連接狀態網線及光纖線是否插好,接口指示燈是否亮正常 不正常iMana健康信息通過iMana查看服務器健康狀態和告警日志信息查看服務器的健康狀態日志信息、散熱管理及電源管理的當前狀態是否有任何告警正常 不正常MM 健康信息通過MM查看刀片服務器健康狀態和告警日志信息通過Web界面查看Tecal 刀片服務器MM管理模塊、服務器刀片、交換模塊、電源模塊、風扇模塊的健康

15、狀態及告警信息。正常 不正常其他其他部件如果硬件其他有異常請聯系現場值守工程師正常 不正常備注指示燈對應關系及iMana、MM健康狀態和告警信息的查詢,請參考服務器產品文檔(產品文檔可在配套光盤中獲取到,或者通過登錄/enterprise進行下載)。1.2 日常巡檢-遠程巡檢通過客戶網絡遠程訪問服務帶外管理軟件(iMana或SMM),使用巡檢工具進行服務器健康狀態巡檢。巡檢工具具有以下特點: 圖形用戶界面(GUI)和 命令行界面(CLI)32位系統和64位系統都支持支持單臺或批量巡檢 支持巡檢報告導出 支持批量收集服務器BMC或刀片服務器SMM板的日志 支持RH系列V2服務器、高密等自研服務器

16、和E9000和E6000 刀片服務器SMM巡檢,不支持RH2488服務器 刀片服務器日志收集時,會同時收集刀片、風扇、電源等日志信息1.2 日常巡檢-遠程巡檢巡檢工具使用前準備工作:一、控制臺要求控制臺用來運行巡檢工具,泛指客戶的PC機或筆記本電腦,推薦用Windows系統或SLES11 SP1以上的Linux系統(工具支持的客戶端詳見用戶指南)。其它輔助工具 ,如用來編輯批量配置文件的Excel組件。;將工具上傳到Linux系統控制臺的SSH工具;用于解壓日志的壓縮工具,如winrar。二、待巡檢服務器配置信息待巡檢服務器的BMC IP地址、root用戶對應的密碼、SNMP版本和端口號待巡檢

17、刀片服務器的主SMM板 IP地址、root用戶對應的密碼、SNMP版本和端口號。批量巡檢需要編輯待巡檢服務器詳細列表,支持xls、xlsx、xml格式文件,該方式也支持單節點服務器巡檢。 1.2 日常巡檢-遠程巡檢1.2 日常巡檢-遠程巡檢巡檢工具主界面如下1.2 日常巡檢-遠程巡檢巡檢工具主界面參數說明參數名稱 中文解釋備注StartIPAddress搜索的起始服務器IP地址iMana或主用MM IP地址(建議使用浮動IP,以免MM主備切換導致主用MM靜態IP無法訪問其他部件)EndIPAddress搜索的結束服務器IP地址必須和StartIPAddress在不超過兩個網段內, 如果只有一臺

18、服務器則和StartIPAddress相同,末尾值不能比StartIPAddress小,跨網段要比StartIPAddress大Password(root) root用戶的密碼iMana或主用MM模塊的root用戶的密碼SNMPVersionSNMP版本號有 v1、v2c、v3 三個值,默認為 v3SNMPPortSNMP服務端口號默認為161CommunitySNMP訪問的團體名v2c 使用默認為rwpublicAuthenticationProtocolSNMP V3鑒權算法有 MD5、SHA 兩個值,默認為 MD5PrivacyProtocol SNMP V3加密算法有 DES、AES

19、兩個值,默認為 DESIPMIPortIPMI端口號默認為 623SSHPort SSH端口號默認為 221.2 日常巡檢-遠程巡檢IPAddress:服務器IP地址ProductName:服務器型號,如果是刀片服務器,顯示的是MM板的型號(如MM620或MM910)SerialNumber顯示服務器的序列號Result :服務器巡檢結果(OK:正常、Minor:輕微告警、Major:嚴重告警、Unknown:未知)ErrorMessage:錯誤信息,比如設備連接不上、錯誤的密碼等Log directory可以直接跳轉到巡檢結果保存路徑,默認路徑為工具包中Work目錄,格式為xml格式。exp

20、ort可以自行選擇巡檢結果保存格式xls、xlsx或xml。巡檢結果中Result存在告警的,可以通過右鍵來收集日志。1.2 日常巡檢-遠程巡檢巡檢結果格式,參考如下1.2 日常巡檢-遠程巡檢巡檢工具命令行方式,與圖形界面類似,命令行通過配置文件(xls、xlsx或xml格式)來設置待巡檢服務器的配置信息,通過命令行工具Inspect_cli.exe執行巡檢。Linux客戶端操作方式與Windows類似,差異在于Linux客戶端通過命令行方式來調用圖形界面;命令行方式調用腳本為Inspect_CLI.sh目錄服務器日常維護1.1 維護準備1.2 日常巡檢1.3 軟件升級服務器故障處理2.1 故

21、障診斷流程2.2 故障信息收集方法2.3 故障定位方法2.4 部件更換流程及注意事項2.5 求助渠道1.3 軟件升級服務器固件(iMana/BIOS/SMM)在滿足客戶新需求或出現異常時,可能需要升級固件,對于iMana/BIOS/SMM在升級固件時提供圖形界面和命令行兩種升級方式。對于批量升級時建議選用批量升級工具,以此減少升級時間。系列默認IP掩碼地址默認用戶名默認密碼RH00rootrootHuawei12#$BH0110XH0104MM610MM620MM1-1MM2-2浮動IP-1rootHuawei12#$或huaweiostaMM910MM1-MM2-浮動IP-rootHuawe

22、i12#$1.3 軟件升級服務器固件(iMana/BIOS/SMM)升級包獲取方式。登錄/enterprise,依次選擇“軟件下載IT服務器”,進入對應產品軟件版本路徑后獲取。R1服務器iMana升級包文件為image.tar.gz,BIOS升級包文件為bios.tar.gz。V2服務器iMana升級包文件為image.hpm,BIOS升級包文件為biosimage.hpm。刀片服務器MM610升級包文件(BC01SMMA.uImage、ppc.bz、mm_fpga.rbf)刀片服務器MM620升級包文件(ASUP.tar.gz)刀片服務器MM910升級包文件( MM910-CPLD-Vxxx

23、.hpm、MM910-ManageApp-Vxxx.hpm)1.3 軟件升級服務器固件iMana/BIOS通過圖形界面升級,需要客戶端登錄iMana Web系統,iMana Web登錄界面如下圖所示。1.3 軟件升級iMana/BIOS軟件版本查詢方法-Web方式:登錄界面可以查看,也可以登錄iMana Web,依次進入“系統信息固件版本”1.3 軟件升級服務器固件iMana/BIOS圖形界面升級操作流程:登錄iMana Web界面。R1服務器依次進入“常見任務固件升級”,V2服務器依次進入“配置固件升級”。選擇固件包,點擊“Upgrade”升級。說明:iMana升級不需要重啟操作系統,但需要

24、做兩次升級操作;BIOS升級一次,需要重啟操作系統生效。1.3 軟件升級iMana/BIOS軟件版本查詢方法-CLI方式:ipmcget -d version,回顯如下rootBMC:/#ipmcget -d version IPMC CPU: SPEAr310IPMI Version: 2.0FPGA Version: (U8)027CPLD Version: (U13)021BIOS Version: (U10)V170Active iMana Version: (U48)5.97Active iMana Built: 15:18:45 Apr 11 2014Backup iMana Ve

25、rsion: 5.971.3 軟件升級(接上頁)Driver Version: 1.00Driver Built: 15:19:02 Apr 11 2014Uboot Version: U-Boot 1.3.5 (May 24 2012 - 10:48:52)-SPEAr310Mainboard BoardID: 0 xaa04Mainboard PCB: .ARAID CARD BoardID: 0 xaa21RAID CARD PCB: .BIPMB Address: 0 x841.3 軟件升級服務器固件iMana/BIOS命令行升級操作流程:1、通過SSH工具將升級包上傳到iMana的/

26、tmp目錄。2、通過SSH工具登錄iMana,依次執行如下命令進行升級。說明:iMana升級不需要重啟操作系統,但需要做兩次升級操作;BIOS升級一次,需要重啟操作系統生效。服務器平臺升級固件命令行備注R1iManaipmcset -d upgrade -v /tmp/image.tar.gz升級過程終于到提示輸入0,選擇全部升級BIOSipmcset -d upgrade -v /tmp/bios.tar.gz升級過程中不能出現服務器重啟,升級完成后重啟服務器生效V2iManaipmcset -d upgrade -v /tmp/image.hpm 1最后面數字1表示升級完成后自動復位iMa

27、na,對于BIOS不生效。BIOSipmcset -d upgrade -v /tmp/biosimage.hpm升級過程中不能出現服務器重啟,升級完成后重啟服務器生效1.3 軟件升級刀片服務器SMM(MM620/MM910)圖形界面升級需要客戶端登錄HMM Web系統,HMM Web登錄界面如下圖所示。1.3 軟件升級軟件版本查詢方法-Web方式。1.3 軟件升級刀片服務器SMM(MM620)圖形界面升級流程如下圖示。登錄備用MM620 HMM Web界面,依次進入“System ManagementFirmware Upgrade”。點擊“Browser”選擇客戶端保存的MM620軟件升級

28、包文件。點擊“Upgrade”進行升級,升級完成后提示“是否立即重啟MM”,選擇“確定”,MM立即重啟。再次登錄備用SMM Web,依次進入“System ManagementFirmware Upgrade”,確認版本Software Version是否升級成功。參考步驟14,升級主用MM620。1.3 軟件升級刀片服務器SMM(MM910)圖形界面升級流程如下圖示,使用靜態IP升級。1、登錄備用HMM Web,依次進入“System ManagementFirmware upgradeMM”。2、點擊View查看BOM版本,當“固件升級”中的“BOM Version”值大于等于“002”時

29、,MM910不可以回退到V100R001C00SPC150及以前版本。3、勾選要升級的MM模塊,點擊“Browser”選擇客戶端保存的CPLD升級包文件。4、點擊“Upgrade”進行CPLD升級,升級完成后,在提示界面點擊“確定”重啟MM910(如果CPLD和固件都需要升級,可以單擊“取消”,先不重啟MM910,等升級固件之后再重啟MM910,以節省升級時間)。1.3 軟件升級刀片服務器SMM(MM910)圖形界面升級流程如下圖示,使用靜態IP升級(續)5、重復步驟14,升級MM910 ManagementApp軟件包。6、命令行登錄備用MM910,依次執行cd /tmp/updatefla

30、g/、ls l,當屏幕回顯為空,表示MM910雙工作區之間的數據已同步完成。7、參考步驟16,升級主用MM910固件。其他固升級件參考E9000 MM910管理模塊升級指導書。1.3 軟件升級SMM軟件版本查詢方法-命令行方法。smmget -l smm -d version,回顯如下SMM Version Information:Uboot Version :(U54)012CPLD Version :(U1082)008 121120PCB Version :SMMA REV BFPGA Version :(U1049)007 121116Software Version :(U54)2.

31、0IPMI Module Built:Mar 14 2013 22:31:441.3 軟件升級刀片服務器SMM命令行升級操作流程,使用SMM靜態IP升級:1、通過SSH工具將升級包上傳到備用SMM的/tmp目錄。2、通過SSH工具登錄備用SMM,執行cd /tmp進入升級文件目錄,依次執行如下命令升級。3、主用SMM重復步驟12升級。其他固件升級參考E9000 MM910管理模塊升級指導書。服務器平臺升級固件命令行MM610BC01SMMA.uImageppc.bzmm_fpga.rbfupdate BC01SMMA.uImageupdate ppc.bzupdate mm_fpga.rbfr

32、ebootMM620ASUP.tar.gzupgradeall ASUP.tar.gzrebootMM910MM910-CPLD-Vxxx.hpmMM910-ManageApp-Vxxx.hpmsmmset -l smm -d firmwareupdate -v MM910-CPLD-Vxxx.hpmsmmset -l smm -d firmwareupdate -v MM910-ManageApp-Vxxx.hpmrebootcd /tmp/updateflag/ls -l /回顯為空,表示雙工作區同步完成1.3 軟件升級服務器iMana/BIOS需要批量升級時,可以使用批量升級工具,主界面

33、如下1.3 軟件升級iMana/BIOS批量升級流程如下,詳細參考Fusion Upgrade Tools用戶指南:1、依次進入批量升級工具“Upgrade ManagementBatch Upgrade”2、輸入iMana用戶名、密碼、IP地址段,點擊“+”;若設備iMana用戶名和密碼不完全相同,可以通過配置文件File來配置。3、點擊“Search”搜索服務器設備。4、點擊“Select”選擇客戶端保存的iMana/BIOS升級包文件,升級工具會自動校驗升級包可匹配的設備在“Device Type”中。5、在“Device List”中選擇要升級的設備,點擊“Upgrade”進行升級。6

34、、升級工具自動切換到“Upgrade Tasks”顯示各設備升級進度及升級結果。7、對于升級失敗的設備,可以在“Upgrade Tasks”列表中重新升級。目錄服務器日常維護1.1 維護準備1.2 日常巡檢1.3 軟件升級服務器故障處理2.1 故障診斷流程2.2 故障信息收集方法2.3 故障定位方法2.4 部件更換流程及注意事項2.5 求助渠道2.1 故障診斷流程-基本原則診斷故障時,應先排除外部的可能因素,如電源中斷、對接設備故障等。根據網絡拓撲圖,分析網絡環境是否正常、互連設備是否發生故障,盡可能準確定位出是網絡中哪個網元發生故障從告警信號流中可以看出,高速信號的告警經常會引起低速信號的告

35、警。因此在故障診斷時,應先排除高速部分的故障。分析告警時,首先分析高級別的告警,如緊急告警、嚴重告警,然后再分析低級別的告警,如輕微告警。先診斷外部,后診斷內部先診斷網絡,后診斷網元先高速部分,后低速部分先分析高級別,后低級別告警2.1 故障診斷流程-資源服務器及節點模塊的運行健康狀態,可通過觀察其指示燈狀態進行初步診斷管理軟件界面集中設備管理功能、友好的圖文界面、安全的信息傳輸和豐富的增值工具。客戶通過MM模塊提供的命令行或Web界面,可以對E6000/E9000服務器機箱中所有設備當前的狀態進行監控和管理。可以從華為技術有限公司的技術支持網站及運維之家獲取服務器紅寶書、案例資料,幫助您分析

36、和處理故障。指示燈iMana模塊MM模塊案例資料2.1 故障診斷流程開始根據告警處理建議處理故障觀察故障現象并收集信息是否有告警?告警是否消除?分析故障信息并判斷故障種類定位故障原因采取措施排除故障故障是否排除?結束聯系華為是否是否是否目錄服務器日常維護1.1 維護準備1.2 日常巡檢1.3 軟件升級服務器故障處理2.1 故障診斷流程2.2 故障信息收集方法2.3 故障定位方法2.4 部件更換流程及注意事項2.5 求助渠道2.2 故障信息收集方法服務器發生故障時,需要收集以下幾類信息進行故障診斷。基本故障信息(包括客戶基本信息、設備型號及配置、故障現象等信息)服務器硬件日志(通過iMana或M

37、M收集服務器硬件相關信息),用于確認服務器的系統故障。業務層日志(包括操作系統、業務軟件相關日志),用于分析軟件層面的問題。2.2 故障信息收集方法基本故障信息收集,參考如下表格。服務器基本故障信息問題單號如123456問題接收時間xxxx年xx月xx日xx時xx分xx秒客戶名稱xxx客戶地址xx省xx市xx縣/鎮/街道客戶姓名張三聯系方式電話/郵箱設備型號如Tecal RH2285 V2設備序列號2102310XXXXX設備硬件配置如CPU、內存、RAID、網卡型號等OS及業務軟件版本如suse11sp1 64位、oracle 10u2故障發生時間xxxx年xx月xx日xx時xx分xx秒故障

38、現象如安裝系統過程自動重啟。故障前的動作如修改BIOS硬件狗。故障后已采取的動作及結果如插拔電源線重新安裝,故障依舊更換光盤,故障依舊.2.2 故障信息收集方法通過服務器iMana管理軟件可以收集服務器硬件相關信息,日常問題主要關注以下信息:iMana/BIOS版本。CPU、內存、RAID卡等硬件配置信息(包括型號和數量)。節點服務器健康狀態(包括CPU溫度、風扇轉速、電源功耗、硬盤狀態等)。節點服務器歷史事件日志(用于分析故障時間點前后的服務器狀態)。最后一屏(用于查看服務器宕機時的畫面信息)。開機自檢碼(用于分析不開機、不上電問題)。sol日志(僅限于V2服務器)。2.2 故障信息收集方法

39、iMana日志收集腳本bmc_collect_vx.y.z.sh(x.y.z代表不同的版本號)使用方法:1、通過SSH工具將bmc_collect.sh上傳到iMana的/tmp目錄下。2、通過SSH命令行登錄iMana,依次執行如下命令進行日志收集。cd /tmp; chmod +x bmc_collect_v2.1.5.sh./bmc_collect_v2.1.5.sh /日志會保留在/tmp目錄,格式為BMC_Borad Name _date_time.tar.gz3、通過SSH將日志文件下載到本地客戶端。2.2 故障信息收集方法iMana日志收集腳本bmc_collect_vx.y.z

40、.sh(x.y.z代表不同的版本號)使用方法:1、通過SSH工具將bmc_collect.sh上傳到iMana的/tmp目錄下。2、通過SSH命令行登錄iMana,依次執行如下命令進行日志收集。cd /tmp;chmod +x bmc_collect_v2.1.5.sh./bmc_collect_v2.1.5.sh /日志會保留在/tmp目錄,格式為BMC_Borad Name _date_time.tar.gz3、通過SSH將日志文件下載到本地客戶端2.2 故障信息收集方法通過服務器SMM管理軟件可以收集服務器硬件相關信息,日常問題主要關注以下信息:SMM/iMana/BIOS版本。刀片型號

41、、CPU、內存、RAID卡等硬件配置信息(包括型號和數量)。整機框健康狀態(包括刀片CPU溫度、硬盤狀態以及風扇轉速、電源功耗、交換板狀態等)。SMM事件日志及節點服務器歷史事件日志(用于分析故障時間點前后的服務器狀態)。2.2 故障信息收集方法SMM日志收集腳本mm_collect_vx.y.z.sh(x.y.z代表不同的版本號)使用方法:1、通過SSH工具將mm_collect.sh上傳到主用SMM的/tmp目錄下。2、通過SSH命令行登錄主用SMM,依次執行如下命令進行日志收集。cd /tmp;chmod +x mm_collect_v1.0.4.sh./mm_collect_v1.0.

42、4.sh /日志會保留在/tmp目錄,格式為MM_Name_Board_Name_Board_SN_“date_time.tar.gz3、通過SSH將日志文件下載到本地客戶端。2.2 故障信息收集方法操作系統日志一般分為Windows和Linux系統日志,收集腳本分別為WinInfoCollection.bat和collection_vx.y.z.sh(x.y.z代表不同的版本號)。2.2 故障信息收集方法Linux日志收集工具主要收集以下信息:環境編輯/usr/bin/env網絡信息(包括網卡IP、端口狀態、路由、DNS等配置)bus信息(lspci回顯,以及各pci設備PCI配置空間、寄存

43、器信息等)中斷信息文件系統信息(包括硬盤使用率、硬盤分區及已打開文件列表、文件系統分區表等)內核信息(包括資源限制信息、內核參數、內核版本、進程信息、歷史記錄history、cpu信息、內存信息、內核文件和文件系統文件等)已安裝的軟件包pkg信息操作系統日志:messages、mcelog、syslog配置文件、grub文件、重啟記錄、dmesg日志等1初始化配置文件inittab1DMI Table(dmidecode)日常問題分析主要關注操作系統版本、grub配置文件、messages日志、mcelog日志、重啟記錄以及history等。2.2 故障信息收集方法Linux日志收集工具適用于

44、通用Linux系統(如SUSE、RHEL等,vmware、solaris不適用),使用方法:通過SSH工具將Linux日志收集腳本collection_vx.y.z.sh(x.y.z表示工具版本號)上傳到操作系統的任意目錄(以/home為例)。執行命令cd /home 進入腳本所在目錄執行命令chmod +x collection_vx.y.z.sh添加可執行權限。執行命令./collection_vx.y.z.sh收集日志。工具執行完成后會在/home/目錄下生成“Linuxlog_廠商_設備型號_設備序列號_年月日時分秒.tar.gz”文件(即日志包),同時會提示人工查看/var/cras

45、h目錄是否生成crash日志。2.2 故障信息收集方法Windows日志收集工具主要收集以下信息:類別描述CPU物理CPU信息Disk操作系統識別到的硬盤及盤符信息Driver已加載的驅動信息及驅動版本信息Memory物理內存信息及內存地址分配空間Network網卡數量及配置信息Process操作系統運行中的進程信息Resources操作系統版本信息、中斷分配、錯誤日志、資源使用率等System操作系統版本信息、計算機名稱、環境變量、當前運行的service、開機自動運行程序等winevt操作系統所有事件日志(包括系統、應用程序、安全、認證等)2.2 故障信息收集方法Windows日志收集工具

46、適于通用Windows2003/2008/2012/Win7系統,使用方法:1、通過FTP/TFTP協議類工具將Windows日志收集工具包devcon文件夾和WinInfoCollection_vx.y.z.bat(x.y.z表示工具版本號)上傳到操作系統的任意目錄。2、進入腳本所在目錄3、雙擊WinInfoCollection_vx.y.z.bat運行腳本。4、工具執行完成后會在當前目錄下生成WinInfoCollection文件夾,同時工具會提示人工查看DUMP日志是否生成。2.2 故障信息收集方法Vmware主機日志收集方法,在主機命令行執行vm-support命令,會生成日志包,如下

47、圖所示。Ubuntu/Solaris主機主要收集內核版本、/var/log/目錄文件。Qlogic HBA卡日志收集工具,參考官方使用說明。Windows版本/SupportCenter/Customer_Support_main?id=kA0800000000CgoCAELinux版本/SupportCenter/Customer_Support_main#!/feedtype=SINGLE_ARTICLE_DETAIL&dc=All&criteria=BESTANSWERS&id=kA0800000000Ce1Emulex HBA卡日志收集工具,參考官方使用說明。/downloads/on

48、ecapture/2.2 故障信息收集方法Fusion Inspect Tools不僅提供巡檢功能,也提供日志收集功能。2.2 故障信息收集方法Fusion Inspect Tools命令行方式收集帶外日志,日志路徑會在Summary字段中體現。Windows系統Linux系統目錄服務器日常維護1.1 維護準備1.2 日常巡檢1.3 軟件升級服務器故障處理2.1 故障診斷流程2.2 故障信息收集方法2.3 故障定位方法2.4 部件更換流程及注意事項2.5 求助渠道2.3 故障定位方法故障定位的基本步驟如下。獲取充分的故障信息后,需根據這些信息,并結合相關原理知識和已有的故障診斷經驗,初步判斷故

49、障的范圍和種類。排除故障是指采取適當的措施或步驟清除故障、恢復系統的過程,如檢修線路、更換設備、修改配置數據、復位等。定位故障從眾多可能原因中找出該單一原因,通過分析、比較各種可能的故障原因,不斷排除不可能因素,最終確定故障發生的具體原因。 判斷故障定位故障 排除故障2.3 故障定位方法確定故障的范圍確定故障的范圍,即確定在什么地方、以什么思路去查找故障處理的方向。確定服務器故障范圍時需區分以下兩種情況:所有業務發生故障需進一步了解對接設備是否同時發生故障。部分業務發生故障需進一步了解故障業務類型及其分布情況,其它業務是否同時發生故障。確定故障的種類確定故障的種類,即確定采用何種方法分析問題、

50、解決問題。2.3 故障定位方法服務器發生故障時,可以參考服務器告警參考和維護寶典(包含常見案例),進行故障定位。服務器告警參考獲取方式:通過瀏覽器訪問以下鏈接/enterprise/productsupport?lang=zh&pid=9856522&idAbsPath=7919749|9856522,進入相應服務器目錄,查找iMana 告警參考(刀片服務器為MM610/620/910 告警參考)。服務器維護寶典鏈接/ehedex/hdx.do?docid=DOC1000041337&lang=zh2.3 故障定位方法服務器告警參考使用說明:ALM-0149FFFF 溫度過高嚴重告警(Inle

51、t Temp)告警解釋告警描述:Above upper major threshold 當溫度傳感器檢測到進風口溫度高于嚴重告警閾值時,產生此告警。該傳感器嚴重告警閾值可以通過命令uppercritical設置。產生此告警的傳感器名稱有:Inlet Temp告警屬性告警ID 告警級別 告警類型 0149FFFF 嚴重 故障對系統的影響 設備運行在較高溫度的環境下,會降低設備器件性能,影響設備壽命,增加能耗,影響業務2.3 故障定位方法(續)可能原因產生此告警的原因有:機房溫度過高。進風口被堵住。處理步驟檢查機房空調運行是否正常,降低設備工作環境溫度,或者把設備轉移至溫度較低的環境,把環境溫度控

52、制在10到30。當溫度降低到要求范圍內后,查看告警是否會自動消除。 是 = 處理完畢否 = 步驟 2檢查進風口是否被堵上。 是 = 步驟 3否 = 步驟 4移除堵物,查看告警是否消失。 是 = 處理完畢否 = 步驟 4聯系華為技術支持處理。告警清除 此告警修復后,系統會自動清除此告警,無需手工清除。2.3 故障定位方法服務器紅寶書匯總常見案例,包括服務器硬件、操作系統、業務軟件等方面引起的各類故障處理經驗。案例一:RH2285插上AC電源線后需按動電源按鈕才能上電問題現象插上AC電源線后,過大約1分鐘機器不能自動開機,必須按前面板電源按鈕才能開機。問題原因服務器通電策略Restore on A

53、C Power Loss設置為Power off。解決方法服務器開機按delete鍵進入BIOS,依次進入AdvancedIPMI 2.0 Configuration Restore on AC Power Loss設置為Power on,按F10保存退出。2.3 故障定位方法案例二: LSI SAS2208卡License Key配置錯誤導致自檢異常問題現象硬件配置: Tecal RH2285 V2服務器(12塊硬盤),LSI2208卡(8盤License Key)。系統啟動過程硬盤自檢階段,提示“Number of disks exceeded the maximum supported

54、count of 8 disks”。問題原因服務器配置為12硬盤背板,但搭配了僅支持8塊硬盤的LSI2208卡,因此無法識別12塊硬盤解決方法更換RAID卡為12盤對應的RAID卡。RAID卡SR220 SR320 SR420 SR520 SR620 硬盤背板8盤8盤或12盤24盤8盤2.3 故障定位方法案例三: RH2285安裝OS過程中自動重啟問題現象安裝OS過程中,不同階段發生自動重啟。iMana上報如下信息。問題原因服務器BIOS開啟硬件狗,導致OS安裝過程中觸發硬件狗超時復位單板。解決方法服務器開機按delete鍵進入BIOS,依次進入AdvancedIPMI 2.0 Configu

55、ration BMC WDT Action For POST/BMC WDT Action For OS Loader設置為Disabled,按F10保存退出。2.3 故障定位方法案例四: RH2285無法安裝Windows2003sp2系統問題現象RH2285配置LSI12078卡安裝OS過程中,無法發現硬盤,重啟后屏幕如下圖。問題原因Windows2003sp2系統未包含LSI1078卡驅動,導致無法發現硬盤,無法安裝系統。解決方法第一種:使用Service CD引導盤安裝Windows2003sp2系統。第二種:使用Windows2003sp2鏡像,同時加載LSI1078卡驅動安裝系統。

56、2.3 故障定位方法案例五: Tecal BH620服務器安裝RHEL 6U2 64位系統花屏問題現象 Tecal BH620服務器安裝RHEL 6U2 64位系統過程中花屏,安裝完成后依然花屏。問題原因RHEL 6U2/6U3自帶xgi驅動對Z9s顯卡支持不完善。解決方法第一種:安裝系統時選擇“Install system with basic video driver”方式安裝。第二種:系統已安裝完成,將顯卡驅動從xgi改為vesa,通過init3、init5復位圖形桌面。2.3 故障定位方法案例六:Windows 2008 R2系統每隔1小時自動關機問題現象服務器安裝了Windows20

57、08R2系統,但是每隔1小時自動關機,業務無法訪問。問題原因Windows2008R2系統開機自動啟動WLMS(Windows License Monitoring Service,無法禁用)會持續監控License的狀態,一旦過期,則會強制每隔1小時關機。解決方法使用正版Windows2008R2系統,保證License有效。2.3 故障定位方法案例七:SUSE11SP1持續運行208天以上宕機問題現象服務器配置Intel CPU,安裝Suse11sp1系統,持續運行約208隨機發生宕機。問題原因安裝Suse11sp1操作系統的服務器,在操作系統運行208天以上會隨機觸發Suse內核除0 B

58、ug,導致異常死機或重啟。解決方法第一種:規避措施,通過命令uptime查看操作系統運行時長,若解決208天時,人工重啟系統。第二種:根本解決方案,升級內核版本到9-0.7.1(解決方案產品以解決方案為準)。2.3 故障定位方法案例八:網卡顯示為未知設備問題現象TecalRH2285服務器配置Intel 82580網卡,安裝Suse10sp2系統,通過命令lspci查看網卡顯示Unknown Device。問題原因第一種:未安裝網卡驅動。第二種:已安裝網卡驅動,但是系統自帶pci.ids文件過舊,無法識別新硬件。解決方法第一種:通過lspci -n查看未知設備廠家id和設備id,通過http:

59、/pci-ids.ucw.cz/確認設備型號,下載驅動并安裝。第二種:通過http:/pci-ids.ucw.cz/ 下載最新pci.ids文件,覆蓋操作系統自帶/usr/share/pci.ids。2.3 故障定位方法案例九:光模塊不匹配導致網卡無法使用問題現象服務器配置雙端口Intel 82599卡,安裝Suse11sp1系統,使用命令ifconfig -a無法識別82599所有端口。問題原因Intel 82599卡兩個端口配置的光模塊型號不同,故障網口在系統日志中顯示“fail to load because unsupported SFP + module type was detec

60、ted”。解決方法Intel 82599標卡只能使用Intel配套光模塊,更換光模塊。目錄服務器日常維護1.1 維護準備1.2 日常巡檢1.3 軟件升級服務器故障處理2.1 故障診斷流程2.2 故障信息收集方法2.3 故障定位方法2.4 部件更換流程及注意事項2.5 求助渠道2.4 部件更換流程及注意事項注意事項:防靜電機柜正確接地嚴格按照操作步驟執行部件輕拿輕放,嚴禁暴力施工需要中斷業務時必須由客戶停止業務并關機,在客戶正式授權后方可實施更換確定故障源準備備件確認影響范圍采取規避措施更換確認更換效果反饋2.4 部件更換流程及注意事項服務器常見更換部件主要如下CPU/內存/硬盤主板電源背板/電

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論