第五章集群存儲系統(tǒng)故障處理_第1頁
第五章集群存儲系統(tǒng)故障處理_第2頁
第五章集群存儲系統(tǒng)故障處理_第3頁
第五章集群存儲系統(tǒng)故障處理_第4頁
第五章集群存儲系統(tǒng)故障處理_第5頁
已閱讀5頁,還剩46頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 0修訂記錄課程編碼課程編碼適用產品適用產品產品版本產品版本課程版本課程版本ISSUEHC1209205N8500V100R002V2.0開發(fā)開發(fā)/優(yōu)化者優(yōu)化者時間時間審核人審核人開發(fā)類型(新開發(fā)開發(fā)類型(新開發(fā)/優(yōu)化)優(yōu)化)張博2013-09-20余雷新開發(fā)本頁不打印Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. HC1209205 集群NAS存儲系統(tǒng)故障處理Copyri

2、ght 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 2目標l學完本課程后,您將能夠:l了解N8500問題處理流程l掌握N8500常見問題及故障的處理方法l具備集群NAS典型故障分析處理能力Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 3目錄lN8500N8500故障處理的原則、方法故障處理的原則、方法lN8500N8500故障處理的流程故障處理的流程lN8500N8500分類故障以及典型問題處理方法分類故障以及典型問題處理

3、方法lN8500N8500故障處理案例故障處理案例Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 4 故障處理原則Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 5故障處理方法分析法替換法看告警信息并配合對性能數(shù)據的分析替換懷疑工作不正常的部件Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 6目錄lN8500故障處理

4、的原則、方法lN8500故障處理的流程lN8500分類故障以及典型問題處理方法lN8500故障處理案例Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 7N8500故障處理流程Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 8N8500信息收集l故障發(fā)生時,需要第一時間收集故障相關信息,主要包括:l故障發(fā)生的具體時間l故障現(xiàn)象的詳細描述lN8000設備的版本l故障后已經采取的措施和結果l客戶業(yè)務組網環(huán)境、目前業(yè)

5、務情況l收集N8000設備的日志信息Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 9集群NAS引擎日志系統(tǒng)日志位置日志位置 日志文件日志文件日志用途日志用途 /var/logmessage操作系統(tǒng)相關的所有關鍵事件/var/logsfsfs_event.log引擎的network,storage服務所產生的事件日志/opt/VRTSnasgw/logUpgrade.log引擎系統(tǒng)升級中的過程/opt/VRTSnasgw/logscanbus.log引擎掃描磁盤操作中搜集的相關信息和關鍵事件/opt/

6、VRTSnasgw/logCIFS.logCIFS共享操作相關的集群管理服務操作及相關事件/opt/VRTSnasgw/logNFSAgent.logNFS共享代理操作相關的集群管理服務操作及相關事件/var/VRTSvcs/logEngine_A.logVCS集群日志 Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 10故障分析定位和排除l故障分析判斷和定位l通過對收集的信息進行分析,從眾多可能原因中找出故障原因的過程,通過故障分析,可以確定故障范圍、故障種類、故障發(fā)生的具體原因以及故障排除的手段。

7、l故障排除l是指采取適當?shù)拇胧┗虿襟E清除故障、恢復系統(tǒng)及業(yè)務的過程,具體的方式有檢修線路、更換硬件、修改配置數(shù)據、重新啟動服務或應用程序、替換損壞文件、重新啟動系統(tǒng)、修復文件系統(tǒng)及服務等 Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 11故障分析定位的主要方法l原始信息分析l指示燈狀態(tài)分析l告警信息分析l告警信息分析l日志信息分析l消息跟蹤分析Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 12故障分析定位

8、的主要方法l原始信息分析l指示燈狀態(tài)分析l告警信息分析l告警信息分析l日志信息分析l消息跟蹤分析Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 13目錄lN8500故障處理的原則、方法lN8500故障處理的流程lN8500分類故障以及典型問題處理方法lN8500故障處理案例Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 141、節(jié)點控制器故障2、接口卡故障3、節(jié)點系統(tǒng)硬盤故障4、節(jié)點電源風扇故障1、 引擎軟件

9、安裝和登錄故障2、 集群容錯故障3、 功能使用故障1、硬件故障2、RAID和LUN故障3、性能故障4、主機與存儲連接故障5、數(shù)據丟失故障引擎節(jié)點硬件故障引擎節(jié)點硬件故障引擎節(jié)點軟件故障引擎節(jié)點軟件故障存儲單元故障存儲單元故障集群NAS系統(tǒng)故障分類Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 15集群NAS系統(tǒng)故障影響1、業(yè)務中斷2、業(yè)務性能下降1、 無法登錄2、 集群節(jié)點無法切換3、 業(yè)務性能下降4、業(yè)務功能無法使用1、文件資源失效2、業(yè)務中斷3、性能下降4、數(shù)據丟失引擎節(jié)點硬件故障引擎節(jié)點硬件故障

10、引擎節(jié)點軟件故障引擎節(jié)點軟件故障存儲單元故障存儲單元故障Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 16集群NAS典型故障診斷1.1.后端存儲故障引起系統(tǒng)異常后端存儲故障引起系統(tǒng)異常2.2.引擎節(jié)點硬件故障引起系統(tǒng)異常引擎節(jié)點硬件故障引起系統(tǒng)異常3.3.內部通信鏈路問題診斷內部通信鏈路問題診斷4.4.管理模塊問題診斷管理模塊問題診斷5.5.文件系統(tǒng)故障診斷文件系統(tǒng)故障診斷6.6.文件讀寫性能問題診斷文件讀寫性能問題診斷7.7.NFSNFS掛載和訪問問題診斷掛載和訪問問題診斷8.8.CIFSCIFS

11、掛載和訪問問題診斷掛載和訪問問題診斷9.9.網絡問題診斷網絡問題診斷Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 171、后端存儲故障引起NAS系統(tǒng)異常Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 182、引擎節(jié)點硬件故障引起系統(tǒng)異常Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 193、集群NAS內部網絡問題C

12、opyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 20內部通信鏈路問題分析和處理方法l引擎之間心跳網絡故障序號序號問題問題解決方案解決方案1腦裂1、停止業(yè)務2、修復心跳網絡3、配置iofencing硬盤,引擎識別到iofencing硬盤,但是不用加入pool4、啟用iofencing功能,重啟整個集群Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 21內部通信鏈路問題分析和處理方法l引擎與存儲單元的鏈路故障序號序

13、號問題問題解決方案解決方案1某個節(jié)點不能掃描到硬盤1、檢查該節(jié)點的系統(tǒng)狀態(tài)2、查看該節(jié)點的HBA卡的狀態(tài)并恢復正常2執(zhí)行scanbus、mount操作時掛死1、檢查所有存儲單元的狀態(tài)2、查看所有存儲單元與引擎的FC連接狀態(tài),如果有存儲單元的FC連接異常,需要修復連接。3、在引擎主節(jié)點的support模式下,通過kill命令刪除scanbus進程4、重啟主節(jié)點Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 22內部通信鏈路問題分析和處理辦法序號序號問題問題解決方案解決方案1存儲單元端FC誤碼率過高1、更

14、換光纖線、光模塊和FC主機口2、更換控制器2引擎、存儲單元與光纖交換機的協(xié)商問題1、 登錄存儲單元,查看HBA卡的連接狀態(tài)和速率,修改HBA的連接狀態(tài)為點對點或者交換機模式2、登錄光纖交換機,更改端口模式Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 234、管理模塊問題Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 24管理模塊問題解決方案序號序號問題問題解決方案解決方案1console口所在的物理網卡沒有

15、連網線連上網線,等待1分鐘后重新登錄2console地址與網絡上其他主機有沖突1、通過KVM修改console地址2、修改沖突主機上的IP地址3資源offline1、通過hagrp -stat |grep Man2、通過hagrp -online ManagementConsole -sys N8300_01 命令上線Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 255、集群NAS文件系統(tǒng)故障故障Copyright 2013 Huawei Technologies Co., Ltd. All rig

16、hts reserved. Page 26集群NAS文件系統(tǒng)故障分析和處理步驟l步驟一:確認引擎和存儲單元間的鏈路是否正常l登錄N8000,執(zhí)行storage disk list paths,查看每個節(jié)點鏈路狀態(tài)l若存在非active的鏈路,恢復鏈路后執(zhí)行storage scanbus,手動online文件系統(tǒng)l步驟二:登錄存儲單元,確認存儲單元狀態(tài)l查看是否有存儲單元故障,參考存儲單元故障處理內容。l是否誤刪N8000文件系統(tǒng)在用的LUN,請聯(lián)系技術支持l是否誤刪映射,恢復LUN映射,執(zhí)行storage scanbus,文件系統(tǒng)可自動恢復,若無法恢復,聯(lián)系技術支持。Copyright 201

17、3 Huawei Technologies Co., Ltd. All rights reserved. Page 27集群NAS文件系統(tǒng)故障分析和處理步驟l步驟三:通過master賬號登錄引擎,確認是否文件系統(tǒng)故障l手動online文件系統(tǒng),如果online成功,則恢復業(yè)務,收集debuginfo信息l如果無法online,查看文件系統(tǒng)標志位l如果文件系統(tǒng)需要做fsck,請聯(lián)系技術支持。l步驟四:fsck完成后,手動online文件系統(tǒng)l如果可以,收集debuginfo供技術支持定位原因;如果不能,則重啟系統(tǒng)再嘗試online,執(zhí)行過程時請聯(lián)系技術支持。Copyright 2013 Huaw

18、ei Technologies Co., Ltd. All rights reserved. Page 286、文件讀寫性能問題Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 29文件讀寫性能問題原因分析Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 30文件讀寫性能問題診斷-業(yè)務變更l原因分析l原來只有順序讀寫業(yè)務,現(xiàn)在變成了隨機讀寫業(yè)務;l原來有只有讀業(yè)務,現(xiàn)在加入了寫業(yè)務;l原來有10路用戶并發(fā),現(xiàn)在更

19、多路用戶同時并發(fā);l其他復雜業(yè)務變更。 l處理意見:l由于業(yè)務類型的變化而造成的流量上的下降屬正常現(xiàn)象,無需處理。Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 31文件讀寫性能問題診斷-存儲單元原因Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 32文件讀寫性能問題診斷思路-引擎原因l原因分析l文件系統(tǒng)l存儲及文件系統(tǒng)參數(shù)配置不當l文件系統(tǒng)存放大量小文件,并且文件系統(tǒng)利用率大于80%,造成檢索速度下降l集群

20、狀態(tài) :IP地址在集群各節(jié)點上分布不均勻l服務狀態(tài)(NFS/CIFS)參數(shù)設置不當。 Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 337、NFS掛載和訪問問題Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 34NFS掛載和訪問問題總結lNFS掛載和訪問問題常見問題包括:l客戶端原因:掛載參數(shù)錯誤、防火墻原因、權限問題。l網絡原因: 無法ping通N8000的虛擬IP; DNS服務器無法連通;網絡鏈路不穩(wěn)定

21、。lN8000原因:NFS服務或虛擬IP offline;文件系統(tǒng)故障;NFS相關服務資源異常。Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 358、CIFS掛載和訪問問題診斷Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 36CIFS掛載和訪問問題總結lCIFS模塊問題常見問題包括:l客戶端原因:掛載參數(shù)錯誤、防火墻原因、權限問題l網絡原因:無法ping通N8000的虛擬IP;DNS服務器出現(xiàn)問題;網絡鏈

22、路不穩(wěn)定lN8000原因:CIFS服務或虛擬IP offline;文件系統(tǒng)故障;CIFS相關服務資源異常Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 379、NAS網絡問題Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 38NAS網絡問題診斷總結Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 39目錄lN8500故

23、障處理的原則、方法lN8500故障處理的流程lN8500分類故障以及典型問題處理方法lN8500故障處理案例Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 40案例1:管理模塊無法登錄l問題描述:l客戶反映無法通過master登錄集群,顯示該賬號不可用l原因分析:l1、通過終端可以ping通管理console地址l2、通過KVM連接到集群,通過support賬號登錄集群,使用 hastatus sum |grep Man 查詢狀態(tài)為offline,執(zhí)行hagrp -online ManagementC

24、onsole -sys testN8300_01l3、在集群的support賬號下,使用ethtool查看管理網口的物理狀態(tài)。通過在主機端檢查arp a 發(fā)現(xiàn)consoleip的mac地址不是集群管理網口的mac地址,表明網絡中的ip地址有沖突Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 41案例2l問題及故障描述l集群在設置IO fencing后,重啟整個集群,出現(xiàn)部分節(jié)點無法加入集群的情況,此現(xiàn)象概率出現(xiàn)l原因分析l集群重啟時,IO防護為了防止集群腦裂,會將部分啟動較慢的節(jié)點排除出集群。因此不允

25、許直接重啟整個集群。若必須將所有節(jié)點都進行重啟,請一次只重啟一個節(jié)點,待該節(jié)點完全啟動并可以提供業(yè)務時,再重啟下一個節(jié)點,直到所有節(jié)點全部重啟完畢,且可以正常提供業(yè)務 l處理步驟l該現(xiàn)象發(fā)生后,重啟未能加入集群的節(jié)點即可修復 Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 42案例3l問題及故障描述l在有NFS業(yè)務時,重啟一個業(yè)務節(jié)點后,一個文件系統(tǒng)offline,導致該文件系統(tǒng)不可訪問l原因分析l重啟節(jié)點與主節(jié)點的時間不一致導致,集群為保護文件系統(tǒng)一致性,強制將文件系統(tǒng)標志位設置為1,引起文件系統(tǒng)o

26、fflinel處理步驟l登錄到集群管理界面的storage模式下,使用fs fsck fs100g命令進行文件系統(tǒng)修復,修復完成后需要使用fs online fs100g的命令將文件系統(tǒng)上線 Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 43案例4l問題及故障描述l把一個節(jié)點從集群刪除后再加入集群,該節(jié)點的NFS共享服務fault,業(yè)務IP無法切換到該節(jié)點l原因分析l在添加一個新的節(jié)點加入集群時,必須保證該節(jié)點是全新安裝的節(jié)點,否則由于原來刪除的節(jié)點依然保留有原有集群的信息,可能導致發(fā)生異常情況l處

27、理步驟l出現(xiàn)此問題時,執(zhí)行nfs server start命令重啟NFS服務,即可將虛擬IP online到新加入的節(jié)點 Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 44案例5l問題及故障描述l將系統(tǒng)時區(qū)從GMT+8改為GMT+9,系統(tǒng)時間應該增加一個小時,實際情況是減少了一個小時,反之亦然 l原因分析l該問題是由于linux下的時區(qū)修改和windows的處理方式不一致導致的 l處理步驟l出現(xiàn)該現(xiàn)象時,立即進行系統(tǒng)時間修改,修改時區(qū)會導致文件系統(tǒng)全部掛掉時區(qū)修改應在系統(tǒng)安裝完畢后立即修改 l使用c

28、lock timezone設置時區(qū)時直接使用時區(qū)名進行設置,不要使用GMT時間進行設置Copyright 2013 Huawei Technologies Co., Ltd. All rights reserved. Page 45案例6l問題及故障描述l使用fs online命令online一個offline狀態(tài)的文件系統(tǒng)時,提示該文件系統(tǒng)“Filesystem is already online”l原因分析l由于文件系統(tǒng)在節(jié)點上mtab信息丟失,但cfs層掛載點正常,而fs list命令是檢測系統(tǒng)mount信息判斷文件系統(tǒng)是否online的,因此顯示文件系統(tǒng)為offline,而fs online是檢測cfs層掛載點狀態(tài),因此導致無法online文件系統(tǒng)l處理步驟l出現(xiàn)該現(xiàn)象時,可以在support用戶下,將該文件系統(tǒng)信息手動

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論