




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、故障的定義.弄清楚系統發生了什么問題.系統現在能做什么?不能做什么?.故障什么時候發生的?.有沒有做平時不同的操作?.故障有沒有規律?定時還是不定時?發生的頻率有多高?.是一臺機器出現故障還是多臺機器故障?故障現象是否相同?.最近有沒有做改動?如安裝了新的硬件、軟件,改變了系統的一些設置。故障信息的收集1)收集故障信息對于判斷、診斷故障原因,修復系統非常重要。2)系統故障記錄(errorlog)errdemon進程在系統啟動時自動運行記錄包括硬件、軟件及其他操作信息故障記錄文件為/var/adm/ras/errlog,可備份下來或拷貝到別的機器上分析errpt命令的使用(普通用戶權限也可使用)
2、#errpt|more列出簡短出錯信息ERROR_IDTIMESTAMPTCRESOURCE_NAMEERROR_DESCRIPTION192AC0710723100300T0errdemonErrorloggingturnedoff0E017ED10720131000PHmem2Memoryfailure9DBCFDEE0701000000T0errdemonErrorloggingturnedon038F25800624131000UHscdisk0UNDETERMINEDERRORAA8AB2410405130900TOOPERATOROPERATORNOTIFICATIONTIMEST
3、AMP:MMDDHHMMYY(月日時分年)T(類型):P永久;T臨時;U未知(永久性的錯誤應引起重視)C(分類):H硬件;S軟件;O用戶;U未知#errpt-dH列出所有硬件出錯信息#errpt-dS列出所有軟件出錯信息#errpt-ajERROR_ID列出詳細出錯信息#errpt-aj0502f666ERROR_ID用大小寫均可例:LABEL:SCSI_ERR1ID:0502F666Date/Time:Jun1922:29:51SequenceNumber:95MachineID:123456789012NodeID:host1Class:HType:PERMResourceName:scs
4、i0ResourceClass:adapterResourceType:hscsiLocation:00-08VPD:VirtalProductDataTOC o 1-5 h zDeviceDriverLevel00DiagnosticLevel00DisplayableMessageSCSIECLevelC25928FRUNumber30F8834ManufacturerIBM97FPartNumber59F4566SerialNumber00002849ROSLevelandID24Read/WriteRegisterPtr0120DescriptionADAPTERERRORProbab
5、leCausesADAPTERHARDWARECABLECABLETERMINATORDEVICEFailureCausesADAPTERCABLELOOSEORDEFECTIVERecommendedActionsPERFORMPROBLEMDETERMINATIONPROCEDURESCHECKCABLEANDITSCONNECTIONSDetailDataSENSEDATA000000000000000000000000000000000000000000000000控制面板上的LED代碼.8位代碼,通常系統故障燈會同時亮起。某些機型還會同時顯示故障設備位置代碼。.4位代碼,通常是Exx
6、x。.3位代碼,通常為Oyyy,只看后3位。.8位和4位代碼可查看系統服務手冊(ServiceGuide)。3位代碼可查看系統診斷手冊(DiagnosticInformationforMultipleBusSystem)。.閃動的888,系統崩潰,硬件或軟件原因造成。按reset鍵會顯示更多內容。888-102一般為軟件故障(888-102-207例外)系統會產生一個dump。888-102-XXX-0C9系統正在做dump,請等待。888-102-XXX-0C0系統dump完成,可關電重啟。888-103或105硬件故障,一般有SRN代碼及位置代碼。SMS(SystemManagementS
7、ervice)故障記錄如何進入SMS菜單當主控臺出現鍵盤圖標后(LED顯示E1F1時)按1鍵。選擇Utilities選擇ErrorLog,抄下8位故障代碼(在SMS中還可以更改系統啟動順序表)MAIL#mail系統會向root用戶發mail報告出錯信息。通常系統出現故障后沒有進行檢查修復,系統會定時提醒root。運行故障診斷程序(Diagnostic),對系統硬件進行檢查和診斷。當發現有硬件故障時應立即使用diag#diag選高級診斷(AdvanceDiagnostic)選問題診斷(ProblemDetermination)或選系統檢查(SystemVerification)(選PD會對系統錯
8、誤記錄進行分析)diag運行后會給出SRN代碼,故障設備名稱及百分比,地址代碼等。對于PCI機型應在系統報錯7天之內運行diag程序對出錯記錄里的sense數據進行分析。其他用于收集系統信息的命令lsdev-C系統設備信息#lsdev-Ccdiskhdisk0Available00-06-00-2,04.5GB16BitSCSIDiskDrivehdisk1Available00-06-00-1,04.5GB16BitSCSIDiskDrivehdisk2Defined00-06-00-4,016BitSCSIDiskDrivelspv查看物理卷信息#lspvhdisk00007821160a
9、f3d76rootvghdisk1000782117f571294rootvghdisk20000000045c45bdedatavglsvg查看卷組信息#lsvgdatavgVOLUMEGROUP:datavgVGIDENTIFIER:0000000055e2458bVGSTATE:activePPSIZE:4megabyte(s)VGPERMISSION:read/writeTOTALPPs:2169(8676megabytMAXLVs:256FREEPPs:1(4megabytes)LVs:3USEDPPs:2168(8672megabytOPENLVs:2QUORUM:2TOTALPV
10、s:1VGDESCRIPTORS:2STALEPVs:0STALEPPs:0ACTIVEPVs:1AUTOON:yesMAXPPsperPV:2032MAXPVs:16#lsvg-lrootvgrootvg:LVNAMETYPELPsPPsPVsLVSTATEMOUNTPOINThd5boot111closed/syncdN/Alv00jfs511021closed/stale/ibmcxxlv01jfs111open/syncd/cics_regionslv02jfs441open/syncd/var/mqmlslpp查看文件組信息#lslpp-L|grep23100020devices.p
11、ci.23100020.rte4.3.2.7CIBMPCI10/100EthernetAdapt看某個文件組是否已安裝,如以太網卡驅動。也用于查詢補丁程序的版本lsattr查看設備參數設置#lsattr-Elent2busio0 x7fffc00BusI/OaddressFalsebusintr9BusinterruptlevelFalseintr_priority3InterruptpriorityFalsetx_que_size512TRANSMITqueuesizeTruerx_que_size256RECEIVEqueuesizeTruerxbuf_pool_size384RECEIV
12、EbufferpoolsizeTruemedia_speed10_Half_DuplexMediaSpeedTrueuse_alt_addrnoEnableALTERNATEETHERNETaddressTruealt_addr0 x000000000000ALTERNATEETHERNETaddressTrueip_gap96Inter-PacketGapTruelscfg查看VPD信息(VirtualProductData)#lscfg-vlssa1DEVICELOCATIONDESCRIPTIONssa130-68IBMSSAEnhancedRAIDAdapter(14104500)Pa
13、rtNumber097H0645FRUNumber097H0645-備件號SerialNumberC8217227ECLevel0000F20825ManufacturerIBM053ROSLevelandID7201-微碼版本LoadableMicrocodeLevel04DeviceDriverLevel00DisplayableMessageSSA-ADAPTERDeviceSpecific.(Z0)DRAM=032DeviceSpecific.(Z1)CACHE=0DeviceSpecific.(Z2)000000062955dab2DeviceSpecific.(YL)P2-I7-槽
14、號不同的硬件設備有不同的VPD,所含的格式和信息都不一樣。通常備件號和微碼版本最有參考價值。注:FRU(FieldReplaceUnit)才是真正的備件號。硬件故障定位方法IBM小型機故障定位方法包括小型機I/O柜上的顯示面板上的Checkpoints信息,ErrorCode和SRNs。Checkpoints檢查點是系統加電CMOS初始化程序(initialprogramload(IPL)運行后顯示在I/O柜的顯示面板上一系列信息。IPL流程當交流電源接到系統后,IPL流程就開始了,IPL流程包括四個步驟:.Phase1:ServiceProcessor的初始化Phase1開始于交流電源接到系
15、統后,直到OK顯示在I/O柜上的顯示面板上為止。在這個步驟會顯示8xxx或9xxxcheckpoints代碼。.Phase2:由ServiceProcessor引導的硬件初始化Phase2開始于按下I/O柜上的白色電源開關。在這個步驟會顯示9xxxcheckpoints。91FF是最后的代碼標志著第三步驟的開始.Phase3:系統固件的初始化在Phase3,一個系統處理器接管控制并繼續初始化系統資源,在這個步驟會顯示Exxx。E105是最后的代碼標志著第四步驟AIX啟動的開始。在這個過程中還會顯示各種位置碼(位置碼代表著系統的每一個部分).Phase4:AIX啟動當AIX開始啟動時,顯示面板上
16、的代碼為Oxxx,同時位置碼會出現在第二行。當AIX的登錄窗口出現在控制臺上時第四步驟結束同時顯示面板上再無任何信息出現。ErrorCode當系統運行有錯誤發現時,一個8位碼會顯示在顯示面板上,同時在第二行顯示相對應問題硬件的位置碼。SRNs(Servicerequestnumbers,服務請求碼)當系統運行有錯誤發現時,SRNs碼會以xxx-xxx的形式顯示在顯示面板上,同時在AIX的errorlog中也會有記載。以上所有代碼都會有相應的步驟解決。由于代碼繁多,請在出現問題后記錄下代碼,并致電IBM服務熱線。系統的啟動順序:.系統不能啟動系統停在Stage1,可能為電源、系統板、CPU、內存
17、等硬件故障。記錄故障代碼通知IBM工程師。系統停在Stage2,可能是啟動順序表(bootlist)損壞或I/O子系統故障。可嘗試進入SMS菜單檢查啟動順序表,并修改。若在選擇bootlist時沒有硬盤設備可選或顯示的硬盤信息不正確則可能是硬盤故障。若根本沒有SCSI設備可選則鏈路有問題。系統停在Stage3,可能是硬盤數據損壞,系統設置文件出錯,或I/O子系統故障。.系統停在551,555或557發生在系統啟動的第三階段(Stage3),可能是:文件系統損壞文件系統日志(jfslog)損壞rootvg中有壞硬盤修復方法用系統光盤或系統備份帶啟動(必須與硬盤中的操作系統版本一致)啟動后選擇選項
18、3StartMaintenanceModeforSystemRecoveryAccessaRootVolumeGroupAccessthisvolumegroupandstartashellbeforemountingthefilesystems格式化文件系統日志(jfslog)#/usr/sbin/logform/dev/hd8檢查修復文件系統fsck-y/dev/hd1(/home文件系統)fsck-y/dev/hd2(/usr文件系統)#fsck-y/dev/hd3(/tmp文件系統)#fsck-y/dev/hd4(/文件系統)#fsck-y/dev/hd9var(/var文件系統)用e
19、xit命令退出,文件系統會自動mount起來。重建bootimagelslv-mhd5找出bootimage所在的硬盤,如hdiskObosboot-ad/dev/hdisk0bootlist-mnormal/dev/hdisk0重建啟動順序表。重啟動系統shutdown-Fr如上述步驟不奏效用系統備份帶恢復系統。如備份帶不能恢復,用診斷光盤(DiagnosticCDROM)檢查是否壞硬盤。.CDE圖形界面掛死CDE運行時不要更改網絡參數(如:主機名和IP地址)更改網卡設置,請先退出CDE圖形環境,選擇命令行方式登錄,在字符界面下更改。如CDE已經掛死遠程telnet登錄找出所有dt有關的進程
20、用kill命令殺掉ps-ef|grepdtkillPID檢查當前主機名hostnametscf50查看主機名是否對應有效的IP地址netstat-i|greptscf50tr0*15009.185.40tscf5050604902824700更改主機名或IP地址,使主機名與當前有效的IP地址存在對應關系。smittytcpip重新啟動CDE界面/etc/rc.dtHACMP環境下可把主機名alias到127.0.0.1上cat/etc/hosts127.0.0.1loopbacklocalhosttscf50#loopback(lo0)name/addressbvg.系統dump發生在系統崩潰
21、時,AIX會做dump(系統內存的快照)。此時機器會顯示閃動的888102xxx0cx代碼:0c9系統dump進行中。0c9狀態可能會維持超過2分鐘,不要關電和按reset,等待dump做完。0c0dump成功完成,這時可以斷電重起。0c2手動啟動dump功能0c4dump設備空間不足,只有部分信息保存下來0c5不明原因導致dump失敗一般dump是由于軟件出錯引起(888-102-207除外),機器通常可以重啟。重啟時可能提示用戶插入磁帶拷貝dump文件,不要選擇退出,這樣會丟失重要的故障信息。dump的有關設置估算系統dump的大小,在系統最繁忙時(內存使用最多)sysdumpdev-e0
22、453-041Estimateddumpsizeinbytes:53477376lsps-aPageSpacePhysicalVolumeVolumeGroupSize%UsedActivepaging00hdisk0rootvg480MB1yeshd6hdisk1rootvg544MB1yes當前的設置#sysdumpdev-lprimary/dev/hd6-dump的主設備secondary/dev/sysdumpnullcopydirectory/var/adm/ras1%ping自己網卡地址(ip地址)ping其它機器地址,如不通,在其機器上用diag檢測網卡是否有問題。在同一網中,s
23、ubnetmask應一致。網絡配置的基本方法:如需修改網絡地址、主機名等,一定要用chdev命令chdev-linetO-ahostname二myhostchdev-len0-anetaddr=9.3.240.58-anetmask=255.255.255.0查看網卡狀態:#lsdev-Ccif確認網絡地址:#ifconfigenO啟動網卡:#ifconfigenOup配置路由有兩種方式加入路由:永久路由chdev-linetO-aroute=1O.47.O.O,9.3.24O.59臨時路由routeadd1O.47.1.29.3.24O.59用命令netstat-rn查看路由表附:常用命令列
24、表:AnyXXXX,#,*,orXistobesubstitutedbyaname,resourcenameor#,fn=filenameDIR=Directory|=pipesymbolbosboot-a-d/dev/hdiskx-rebuildsbootrecord/imageonbootdevice(hdiskx)cat-viewcontentsofafilecat/tmp/*.1-viewafile,lookatoutputcatfnfnnewfile-combinestwofilestoasinglefilecd-willreturnyoutodefaultDIRcd/-willpu
25、tinrootDIRcd/xxxx-changeyoutoaDIRanywhereissystemcd.-willdropyououtof1DIRatatimecdxxxxx-willchangeyoutoaDIRincurrentdircfgmgr-willautoconfigdevicescfgmgr-v&-(-v)showsprocesses(&)putsinbackgroundchps-sxxhd#-increasepagingspace(xx=#ofaddtlPPs)cpoldfnnewfn-copyafilecpoldfnDirn-copyafiletoanotherdirecto
26、rycrontab-l-listcrontabentriesforthecurrentuserctrl+v-willpagedown1pagectrl+6-willpageup1pagedelfn-sameasrm-i,promtstoremovefndf-I-showsstatusoffilesystems(noinodes)df-Ik-(k)showstatusin1024bites(1mb)(onlyAIX4diag-a-updateschangesinhardwareconfigurationdiag*-*=adevicetype(astape,diskFastpath)diag-cd
27、rmtX-resetstapedrivedosformat-formatsadiskettetoDOSdosdir-listfilesondosformateddiskettedosreadXXYY-copiesdosfileXXtoaixfileYYdoswriteYYXX-copiesaixfileYYtodosfileXXerrpt-generatesaonelinesynopsisofloggederrorserrpt|pg-listerrorlog1pageatime(1stcolumnisID)errpt-a-displaysdetailedinformationofloggede
28、rrorserrpt-sMmddhhmmyy-selectentriespostedlaterthandateerrpt-ajXXXXXXX-listdetailerrorbyIDnumber.(XXX=1stcolumn)errpt-dS-listsoftwareerrorserrpt-jXXXXXXX-listsummaryreportbyIDnumber.errpt-aNXXXXXX-listdetailedreportbyresourcenamecolumnerrpt-NXXXXXXX-listsummaryreportbyresourcenamecolumnerrclear0-cle
29、arserrorlogerrclear-NXXXXX0-clearserrorlogbyresourcename,0=allentererrclear-jXXXXX0-clearserrorlogbyIDnumber.finger-sameaswhobutwithmoredetailsflcopy-copiesadiskettetoanotherdisketteformat-formatsadisketteindefaultdiskettedriveformat-l-formatsinlowerdenity:1.44on2.44/720on1.44hostname-respondswithho
30、stsystemnamehost(hostname)-respondswithinternetaddressinstfix-ikIPAR#-listsiparfixwascompletelyinstalledlppchk-v-checksinstallstatusofLPPslppchk-v2/dev/lpX-sendsoutputoflppchktoprinterlpxlpstat-aall-viewallprinterqueueslptest805/dev/lp0-sendtestpatterntolp0ls-listnamesoffiles&directoriesincurrentdir
31、ls-lia-listdetailsoffiles,currentdir&subdirls-al-listdetailsoffilesordirincurrentdirlsattr-Elxxxxxx-listspecificsettingsonadevicelsdev-C|sort-d-f-listsystemhardware(devices)lsdev-C|grep00-0X-listresoursesforaadapterlsdev-Ccxxxxx-H-listdevices(xxx=tty,printer,disk,memory,adptlsdev-Csscsi-listscsidevi
32、ces(notserialorraid)lsdev-Cctape-listtapedeviceslsdev-Cspci-listpcideviceslsdev-Csisa-listisadeviceslscons-liststheassignedconsolelscfg-listhardwarelist(sameasdiagslist)lscfg-rlmem*|pg-liststhememoryonPCIbusmachineslscfg-vlXXXXX-listconfiginfofromadevice.(rmt0,hdisk,etc)lscfg-vlsysplanar0-liststhema
33、chinetype,model,s/nonSMPlsfs-listallfilesystems+datafromdfcmdlslpp-l|grepBROKEN-listsincompleteptfslslv-mhd5-findsbootdriveunderpv1columnlsps-a-checksavailablepagingspacelsps-s-checksavailablepagingspacelspv-listsinformationaboutthephysicalvolumeslspvhdisk#-listdriveinfolspv-lhdisk#-listslogicalvolu
34、megroupdiskinlsuser-fALL-listsallattributesforalluserslsvg-listsvolumegroupslsvg-pXXXXXX-listsdisksinvolumegroup(xxxxx=volumename)more-readsfilesanddisplaysthetextonescreenatatime.mpcfg-df-listallsettingthemachineissetto(smp)mpcfg-cf111-changestofastIPLonSMPmachines(smp)mvfn(pathfn)-moveandrenameafi
35、leoslevel-showsAIXversion(3.2.4andabove)pg-readsanddisplaystextonescreenatatime.pdisable-makesunavailableorshowsalldisabledttyspdisabletty#-disablesattypenable-makesavailableorshowsallenabledttyspenabletty#-enablesattyps-el|pg-lookatprocessrunningonsystempwd-listwhatDIRyouarecurrentlyinr-repeatslast
36、commandrm-i*-removeafile&willpromptyouifyouaresurermdev-lXXXXX-removesadeviceanddefinesittodatabasermdev-lXXXXX-d-removesadeviceanddeletesitfromdatabaseset-ovi-setsuptoveiwcammandsthathavebeenrun:wq-write(save)andquitfileEsc+k-usedwithSETcommandtolistlastcommandk,l-k=listnextcommandran,l=stepsyouthr
37、ucommandI-usewithSETcommandinsertscharactersj-stepsyoubackwardscw-cw=removesaword,justtypeinnewword(usewithEsc)a,x,r-a=addedtext,x=deletetext,r=replacetext(r+letter)R-letsyoutypeoverlettersorwordssmit*-(*=tape,disk,tty,etc.fastpath)su-standsforswitchuser,(NOTsuperuser)su-switchestorootidorpromptsyou
38、forpasswordsuXXXXXX-switchestoXXXXXXsidtar-cvf/dev/rmtX/etc-willcopy/etctoatapedrivetar-tvf/dev/rmtX-willreadatapedrivetctl-f/dev/rmtXrewoffl-rewind&ejecttapetctl-f/dev/rmtX.1fsf3-forwardadvancesatapetobereadbyTARtctl-F-listavailcommands(-Fflagisnotcorrect)tctlretension-retensionstapeintapedrive&-pu
39、tanycommandinbackgroundwithprocessIDuptime-howlongsincelastIPLandhowmanyusersonsystemvmstat#-reportsvirtualmemorystatisticsandmoreiostat#-reportsCPU,disk&cdromstatisticsusewithvm&iostat-1st#(howmanysectorepeat),2nd#(howmanytimes)who-showsusersonsystemwhoami-showsuseridonyourterminal&ttynumberUSEthef
40、ollowingwithothercommands./tmp/*.1-createsafile(usedwithlsXXXcommand)/dev/lp#-redirectesoutputtoaprinter(usewithacomd)|grep-isusefultosearchfortextinafile.|pg-useafteranycommandtoviewonepageatatime|-pipesign-Takestheoutputofonecommandandfeedsittotheinputofanother.-redirectsignorgreaterthansign/-slas
41、hsign-backslashsign-doubleredirectwilladdtexttoendoffile&-putanycommandinbackgroundwithprocessIDMUSTunmountfilesystem1sttorunfsck&dfsck/onlyusewithaproblemfsckXXXXXXX-willcheckafilesystemforerrors&promptdfsck/XXXX/XXXX-willcheck2differentfilesysatthesametimeFOLLOWINGcommandlineswilldeleteagroupofdevicesasagroup,the#,signisthehdisk#sthatyouwanttodelete.(thisisanexampe.)fordiskin#-thislineandthenext3lineworktogetherdo-thepromptwillbe(REMEMBERtohite
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 炎黃職業技術學院《海洋化學》2023-2024學年第二學期期末試卷
- 天津科技大學《文化創意產品設計》2023-2024學年第一學期期末試卷
- 內蒙古呼和浩特市賽罕區市級名校2025年初三第四次調研診斷考試數學試題理試題含解析
- 吉林職業技術學院《土壤科學》2023-2024學年第一學期期末試卷
- 武漢工商學院《舞蹈與形體》2023-2024學年第二學期期末試卷
- 攀枝花學院《高速鐵路概論》2023-2024學年第二學期期末試卷
- 宜春幼兒師范高等專科學校《植物保健與和諧植保》2023-2024學年第二學期期末試卷
- 二零二五版外籍工作人員聘用合同范例
- 二零二五版個人房產抵押合同書范文
- 范文房產抵押擔保合同模板二零二五年
- 老舊小區房屋改造工程監理大綱
- 小學四年級下學期英語閱讀理解
- 房地產廣告圍擋施工投標文件范本
- 食品添加劑、食品污染物的本底與轉化來源
- DB43∕T 498-2009 博落回葉-行業標準
- 大慶油田第五采油廠杏四聚聯合站工程轉油放水站二期工程施工組織設計
- 心力衰竭病人的護理查房pptppt(ppt)課件
- 大年初一沒下雪 短文小說
- 中小學生守則ppt課件(18頁PPT)
- 應急物資領用(返還)登記表
- 二次函數的應用——橋洞問題
評論
0/150
提交評論