




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、精選文檔一 故障的定義.弄清楚系統發生了什么問題.系統現在能做什么?不能做什么?.故障什么時候發生的?.有沒有做平常不同的操作?.故障有沒有規律?定時還是不定時?發生的頻率有多高?.是一臺機器消滅故障還是多臺機器故障?故障現象是否相同?.最近有沒有做改動?如安裝了新的硬件、軟件,轉變了系統的一些設置。 二 故障信息的收集1)收集故障信息對于推斷、診斷故障緣由,修復系統格外重要。2)系統故障記錄(errorlog)errdemon 進程在系統啟動時自動運行記錄包括硬件、軟件及其他操作信息故障記錄文件為/var/adm/ras/errlog,可備份下來或拷貝到別的機器上分析errpt 命令的使用(
2、一般用戶權限也可使用)#errpt |more 列出簡短出錯信息 ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION192AC071 0723100300 T 0 errdemon Error logging turned off0E017ED1 0720131000 P H mem2 Memory failure9DBCFDEE 0701000000 T 0 errdemon Error logging turned on038F2580 0624131000 U H scdisk0 UNDETERMINED ERRORAA8AB24
3、1 0405130900 T O OPERATOR OPERATOR NOTIFICATION TIMESTAMP: MMDDHHMMYY (月日時分年)T(類型): P 永久; T 臨時; U 未知 (永久性的錯誤應引起重視)C(分類): H 硬件; S 軟件; O 用戶; U未知 #errpt -d H 列出全部硬件出錯信息#errpt -d S 列出全部軟件出錯信息#errpt -aj ERROR_ID 列出具體出錯信息# errpt -aj 0502f666 <- ERROR_ID用大小寫均可例:LABEL: SCSI_ERR1ID: 0502F666 Date/Time: Ju
4、n 19 22:29:51Sequence Number: 95Machine ID: 123456789012Node ID: host1Class: HType: PERMResource Name: scsi0Resource Class: adapterResource Type: hscsiLocation: 00-08VPD: <- Virtal Product Data Device Driver Level.00Diagnostic Level.00Displayable Message.SCSIEC Level.C25928FRU Number.30F8834Manuf
5、acturer.IBM97FPart Number.59F4566Serial Number.00002849ROS Level and ID.24Read/Write Register Ptr.0120DescriptionADAPTER ERROR Probable CausesADAPTER HARDWARE CABLECABLE TERMINATOR DEVICE Failure CausesADAPTERCABLE LOOSE OR DEFECTIVE Recommended ActionsPERFORM PROBLEM DETERMINATION PROCEDURESCHECK C
6、ABLE AND ITS CONNECTIONS Detail DataSENSE DATA0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 00003)把握面板上的LED 代碼 .8 位代碼,通常系統故障燈會同時亮起。某些機型還會同時顯示故障設備位置代碼。.4 位代碼,通常是Exxx。.3 位代碼,通常為0yyy,只看后3位。.8 位和4位代碼可查看系統服務手冊 (Service Guide)。3 位代碼可查看系統診斷手冊(Diagnostic Information for Multiple Bus System)。.閃動的 88
7、8, 系統崩潰,硬件或軟件緣由造成。按reset 鍵會顯示更多內容。 888-102 一般為軟件故障(888-102-207 例外)系統會產生一個dump。888-102-xxx-0C9 系統正在做dump, 請等待。888-102-xxx-0C0 系統dump完成,可關電重啟。888-103 或 105 硬件故障,一般有 SRN 代碼及位置代碼。4)SMS (System Management Service) 故障記錄 如何進入SMS 菜單當主控臺消滅鍵盤圖標后(LED 顯示E1F1時)按1鍵。選擇"Utilities"選擇"Error Log",
8、抄下8位故障代碼(在SMS 中還可以更改系統啟動挨次表)5) MAIL #mail系統會向root用戶發mail報告出錯信息。通常系統消滅故障后沒有進行檢查修復,系統會定時提示root。6)運行故障診斷程序(Diagnostic),對系統硬件進行檢查和診斷。 當發覺有硬件故障時應馬上使用diag #diag > 選高級診斷(Advance Diagnostic)> 選問題診斷(Problem Determination) 或選系統檢查(System Verification)(選PD 會對系統錯誤記錄進行分析)diag運行后會給出SRN 代碼,故障設備名稱及百分比,地址代碼等。對于
9、PCI機型應在系統報錯7天之內運行diag程序對出錯記錄里的sense數據進行分析。7)其他用于收集系統信息的命令lsdev -C 系統設備信息#lsdev -Cc diskhdisk0 Available 00-06-00-2,0 4.5 GB 16 Bit SCSI Disk Drivehdisk1 Available 00-06-00-1,0 4.5 GB 16 Bit SCSI Disk Drivehdisk2 Defined 00-06-00-4,0 16 Bit SCSI Disk Drive lspv 查看物理卷信息#lspvhdisk0 0007821160af3d76 roo
10、tvghdisk1 000782117f571294 rootvghdisk2 0000000045c45bde datavg lsvg 查看卷組信息#lsvg datavgVOLUME GROUP: datavg VG IDENTIFIER: 0000000055e2458bVG STATE: active PP SIZE: 4 megabyte(s)VG PERMISSION: read/write TOTAL PPs: 2169 (8676 megabytMAX LVs: 256 FREE PPs: 1 (4 megabytes)LVs: 3 USED PPs: 2168 (8672 m
11、egabytOPEN LVs: 2 QUORUM: 2TOTAL PVs: 1 VG DESCRIPTORS: 2STALE PVs: 0 STALE PPs: 0ACTIVE PVs: 1 AUTO ON: yesMAX PPs per PV: 2032 MAX PVs: 16 #lsvg -l rootvgrootvg:LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 1 1 1 closed/syncd N/A . lv00 jfs 51 102 1 closed/stale /ibmcxxlv01 jfs 1 1 1 open/
12、syncd /cics_regionslv02 jfs 4 4 1 open/syncd /var/mqm lslpp 查看文件組信息# lslpp -L |grep 23100020.devices.pci.23100020.rte 4.3.2.7 C IBM PCI 10/100 Ethernet Adapt看某個文件組是否已安裝,如以太網卡驅動。也用于查詢補丁程序的版本。 lsattr 查看設備參數設置# lsattr -El ent2busio 0x7fffc00 Bus I/O address Falsebusintr 9 Bus interrupt level Falseintr_
13、priority 3 Interrupt priority Falsetx_que_size 512 TRANSMIT queue size Truerx_que_size 256 RECEIVE queue size Truerxbuf_pool_size 384 RECEIVE buffer pool size Truemedia_speed 10_Half_Duplex Media Speed Trueuse_alt_addr no Enable ALTERNATE ETHERNET address Truealt_addr 0x000000000000 ALTERNATE ETHERN
14、ET address Trueip_gap 96 Inter-Packet Gap True lscfg 查看VPD信息(Virtual Product Data)# lscfg -vl ssa1DEVICE LOCATION DESCRIPTION ssa1 30-68 IBM SSA Enhanced RAID Adapter(14104500) Part Number.097H0645FRU Number.097H0645 <- 備件號Serial Number.C8217227EC Level.0000F20825Manufacturer.IBM053ROS Level and
15、ID.7201 <- 微碼版本Loadable Microcode Level.04Device Driver Level.00Displayable Message.SSA-ADAPTERDevice Specific.(Z0).DRAM=032 Device Specific.(Z1).CACHE=0Device Specific.(Z2).000000062955dab2Device Specific.(YL).P2-I7 <- 槽號 不同的硬件設備有不同的VPD,所含的格式和信息都不一樣。通常備件號和微碼版本最有參考價值。注:FRU(Field Replace Unit)才
16、是真正的備件號。 三 硬件故障定位方法 IBM 小型機故障定位方法包括小型機I/O柜上的顯示面板上的Checkpoints信息,Error Code 和SRNs。 Checkpoints 檢查點是系統加電CMOS初始化程序(initial program load (IPL)運行后顯示在 I/O柜的顯示面板上一系列信息。IPL 流程當溝通電源接到系統后,IPL流程就開頭了,IPL流程包括四個步驟:. Phase 1: Service Processor 的初始化Phase 1 開頭于溝通電源接到系統后,直到OK顯示在I/O柜上的顯示面板上為止。在這個步驟會顯示 8xxx 或9xxx check
17、points代碼 。. Phase 2: 由 Service Processor 引導的硬件初始化Phase 2 開頭于按下I/O柜上的白色電源開關。在這個步驟會顯示 9xxx checkpoints 。91FF 是最終的代碼標志著第三步驟的開頭. Phase 3: 系統固件的初始化在 Phase 3, 一個系統處理器接管把握并連續初始化系統資源, 在這個步驟會顯示 Exxx。E105是最終的代碼標志著第四步驟AIX啟動的開頭。在這個過程中還會顯示各種位置碼( 位置碼代表著系統的每一個部分). Phase 4: AIX 啟動當AIX開頭啟動時,顯示面板上的代碼為 0xxx ,同時位置碼會消滅在
18、其次行。當AIX的登錄窗口消滅在把握臺上時第四步驟結束同時顯示面板上再無任何信息消滅。 Error Code 當系統運行有錯誤發覺時,一個8位碼會顯示在顯示面板上,同時在其次行顯示相對應問題硬件的位置碼。 SRNs (Service request numbers,服務懇求碼 )當系統運行有錯誤發覺時,SRNs碼會以 xxx-xxx的形式顯示在顯示面板上,同時在AIX的error log中也會有記載。 以上全部代碼都會有相應的步驟解決。由于代碼繁多,請在消滅問題后記錄下代碼,并致電IBM服務熱線。系統的啟動挨次: .系統不能啟動系統停在Stage 1,可能為電源、系統板、CPU、內存等硬件故障
19、。記錄故障代碼通知IBM工程師。 系統停在Stage 2,可能是啟動挨次表(bootlist)損壞或I/O子系統故障。可嘗試進入SMS 菜單檢查啟動挨次表,并修改。若在選擇bootlist時沒有硬盤設備可選或顯示的硬盤信息不正確則可能是硬盤故障。若根本沒有SCSI設備可選則鏈路有問題。 系統停在Stage3,可能是硬盤數據損壞,系統設置文件出錯,或I/O子系統故障。.系統停在551,555或557發生在系統啟動的第三階段 (Stage 3),可能是:文件系統損壞文件系統日志(jfslog)損壞rootvg中有壞硬盤 修復方法用系統光盤或系統備份帶啟動(必需與硬盤中的操作系統版本全都) 啟動后選
20、擇選項3"Start Maintenance Mode for System Recovery"> "Access a Root Volume Group"> "Access this volume group and start a shellbefore mounting the file systems"格式化文件系統日志(jfslog)# /usr/sbin/logform /dev/hd8 檢查修復文件系統# fsck -y /dev/hd1 (/home 文件系統)# fsck -y /dev/hd2 (/us
21、r 文件系統)# fsck -y /dev/hd3 (/tmp 文件系統)# fsck -y /dev/hd4 (/ 文件系統)# fsck -y /dev/hd9var (/var 文件系統). .用 exit 命令退出,文件系統會自動 mount 起來。 重建bootimage # lslv -m hd5 找出bootimage所在的硬盤,如hdisk0# bosboot -ad /dev/hdisk0# bootlist -m normal /dev/hdisk0 重建啟動挨次表。重啟動系統# shutdown -Fr 如上述步驟不奏效用系統備份帶恢復系統。 如備份帶不能恢復,用診斷光盤
22、(Diagnostic CDROM)檢查是否壞硬盤。 .CDE圖形界面掛死CDE 運行時不要更改網絡參數(如:主機名和IP 地址)更改網卡設置,請先退出CDE圖形環境,選擇命令行方式登錄,在字符界面下更改。如CDE 已經掛死遠程 telnet 登錄找出全部dt有關的進程用kill命令殺掉# ps -ef |grep dt . .# kill PID檢查當前主機名# hostname tscf50查看主機名是否對應有效的IP地址# netstat -i |grep tscf50 tr0* 1500 9.185.40 tscf50 506049 0 28247 0 0更改主機名或IP地址,使主機名
23、與當前有效的IP地址存在對應關系。# smitty tcpip 重新啟動CDE界面# /etc/rc.dt HACMP環境下可把主機名alias到127.0.0.1上# cat /etc/hosts127.0.0.1 loopback localhost tscf50 # loopback (lo0) name/addressbvg .系統dump發生在系統崩潰時,AIX會做dump(系統內存的快照)。此時機器會顯示閃動的888 102 xxx 0cx 代碼:0c9 系統dump 進行中。0c9狀態可能會維持超過2分鐘,不要關電和按reset, 等待dump做完。0c0 dump 成功完成,這
24、時可以斷電重起。0c2 手動啟動dump 功能0c4 dump 設備空間不足,只有部分信息保存下來 0c5 不明緣由導致dump 失敗一般dump是由于軟件出錯引起(888-102-207 除外),機器通常可以重啟。重啟時可能提示用戶插入磁帶拷貝dump文件,不要選擇退出,這樣會丟失重要的故障信息。dump的有關設置估算系統dump的大小,在系統最繁忙時(內存使用最多)# sysdumpdev -e0453-041 Estimated dump size in bytes: 53477376 # lsps -aPage Space Physical Volume Volume Group Si
25、ze %Used Activepaging00 hdisk0 rootvg 480MB 1 yeshd6 hdisk1 rootvg 544MB 1 yes當前的設置#sysdumpdev -l primary /dev/hd6 <- dump的主設備secondary /dev/sysdumpnullcopy directory /var/adm/ras <- dump拷貝的名目forced copy flag TRUEalways allow dump TRUE hd6應比估算值稍大。/var/adm/ras 是默認的dump拷貝名目,比較估算值,保證/var文件系統有足夠的剩
26、余空間拷貝dump文件。否則機器重起時會提示用戶插入磁帶。dump文件名為vmcore.# 對PCI機型如要手動做dump,須把" always allow dump" 先設成true。# sysdumpdev -Kdump打包# snap -a -o /dev/rmt# 或# snap -a -c 把/tmp/ibmsupt名目做成一個壓縮文件snap.tar.Z假如/tmp文件系統空間不夠,可用-d directory 參數指定別的名目代替/tmp/ibmsupt 四 7133-D40 SSA磁盤柜的故障定位 當SSA磁盤柜消滅故障時,在磁盤柜前面板的液晶顯示屏上會顯示
27、相應的SRNs,同時黃色的顯示燈會閃動,在AIX的error log中也會有記載錯誤信息,如:DISK_ERR1,DISK_ERR4,SSA_ARRAY_ERROR等。請在消滅問題后記錄下代碼,并致電IBM服務熱線。 五 軟件故障定位方法 軟件故障狀況錯綜簡單,下面列舉幾個常見案例的故障處理方法。 1) 文件系統空間不夠。查看有沒有“滿”的文件系統。特殊是/、/var、/tmp,不要超過90%。文件系統滿可導致系統不能正常工作,尤其是AIX的基本文件系統。如/ (根文件系統)滿則會導致用戶不能登錄。用df k 查看。# df -k (查看AIX的基本文件系統)Filesystem 1024-b
28、locks Free %Used Iused %Iused Mounted on/dev/hd4 24576 1452 95% 2599 22% /dev/hd2 614400 28068 96% 22967 15% /usr/dev/hd9var 8192 4540 45% 649 32% /var/dev/hd3 167936 157968 6% 89 1% /tmp/dev/hd1 16384 5332 68% 1402 35% /home除/usr文件系統,其他文件系統都不應太滿,一般不超過80%。 處理方法1:刪除垃圾文件# du -sk * |sort -rn |head查找出當前
29、名目下占空間最大的子名目,逐層往下直到找出占空間最大的文件。(要區分哪些名目是文件系統的 mount point,哪些是文件系統的子名目)刪除文件,釋放空間。有時刪除文件后空間并不馬上釋放,這是由于你刪除的文件正被某個程序打開。只有當這個程序停止后空間才釋放,有時甚至需要重起系統。處理方法2:增加文件系統大小# smitty chjfs 文件系統可以在任何時候加大,前提是卷組(VG)中有剩余空間。 2) 檢查文件系統的完整性# umount filesystem_name# fsck -y filesystem_name 留意:文件系統必需先umount,再做檢查和修復,否則可導致未知的后果。
30、 3)查看卷組信息(lsvg -l vg_name):有沒有"stale"狀態的規律卷。 若有,用syncvg 命令修復"stale"規律卷。 4)檢查內存交換區(paging space)使用率(lsps -s):使用率是否超過70% ,若有則用chps sX pgname增加X個PP或用 mkps a n sX myvg在myvg上增加一個PP數為X的內存交換區。 5) 小型機內存泄漏問題小型機消滅內存泄漏,即系統或應用進程無法將使用過的內存釋放,使可用內存的容量漸漸削減。假如可用內存降到某最小值將造成系統或應用程序無法FORK子進程,就會造成系統癱
31、瘓。通常我們可以用ps和sar命令來查看小型機內存和CPU占用率的或許狀況以及各進程的內存和CPU占用率的進展趨勢。(a) ps# ps gv|head -n 1; ps gv|egrep -v "RSS" | sort +6b -7 -n -r |head -n 5PID TTY STAT TIME PGIN SIZE RSS LIM TSIZ TRS %CPU %MEM COMMAND15674 pts/11 A 0:01 0 36108 36172 32768 5 24 0.6 24.0 ./tctestp22742 pts/11 A 0:00 0 20748 208
32、12 32768 5 24 0.0 14.0 ./backups10256 pts/1 A 0:00 0 15628 15692 32768 5 24 0.0 11.0 ./tctestp2064 - A 2:13 5 64 6448 xx 0 6392 0.0 4.0 kproc1806 - A 0:20 0 16 6408 xx 0 6392 0.0 4.0 kprocSIZE virtual size (in the pagingspace), in kilobytes, RSS real-memory (resident set) size in kilobytes of the pr
33、ocess.通過不同時間輸出的比較,就能觀看出內存和CPU占用率的基本狀況。找出其中占用內存數不斷變大的進程,這個進程可能就已經發生了內存泄漏。(b) sar 指令也可以查看CPU占用率,但統計的結果不是很精確。通常使用sar令的格式為:#sar -P ALL 2 10 09:29:37 cpu %usr %sys %wio %idle09:29:39 0 0 0 4 951 1 0 4 95- 0 0 4 9509:29:41 0 0 2 6 921 3 4 2 91- 2 3 4 9209:29:43 0 3 1 2 941 2 2 2 95- 2 1 2 9409:29:45 0 2 2
34、 7 901 4 5 6 86- 3 3 6 8809:29:47 0 1 1 2 961 1 2 2 96- 1 1 2 9609:29:49 0 0 0 0 1001 0 1 0 99- 0 0 0 10009:29:51 0 2 0 0 981 0 1 0 98- 1 0 0 9809:29:53 0 7 1 6 861 2 2 5 90- 5 2 5 8809:29:55 0 4 5 56 351 12 2 55 32- 8 4 55 3309:29:57 0 16 8 14 641 15 9 11 65- 15 8 12 64 Average 0 3 2 10 851 4 3 8 8
35、5- 4 2 9 85 表示2秒鐘輸出一次結果總共有10次結果,然后平均。目前,假如發覺內存泄漏,最好重新啟動系統。 六 HACMP環境下的排錯 在一般狀況下,HACMP軟件很少需要手工干預,但一旦有問題發生,診斷和恢復的技巧是很重要的.需要能很快地斷定問題然后運用你對HACMP的理解來恢復HACMP的正常運作.一般地,HACMP環境下的排錯包括:.了解問題的存在.推斷問題的出處.解決問題. 一 了解問題的存在 您可以通過以下途徑了解到一個CLUSTER環境下消滅了問題.最終用戶的投訴,他們無法訪問應用程序.把握臺上消滅一些HACMP的信息. 1.應用服務無法訪問最終用戶的埋怨通常預示CLUS
36、TER消滅了問題.他們無法正常執行應用或是無法登錄到系統.我們必需采集到具體的信息以推斷到底那里消滅了問題.是否有錯誤的信息提示?假如可能的話,讓用戶重復步驟以確定那里是錯誤的開頭.您也可以在自己的系統上重復.要知道用戶應用不行用并不代表HACMP有問題.問題可能消滅在應用程序本身或是它的啟動或終止腳本消滅了問題.因此應用程序本身的排錯也應是HA排錯的一部分.2.把握臺上消滅一些HACMP的信息在HACMP啟動,終止或出錯時,把握臺上會消滅一些HACMP的信息,同時也會寫入相應的文件中. 二 推斷問題的出處 當錯誤消滅時,我們應嘗試發覺錯誤的所在.但我們經常被錯誤的表面所誤導.以下的步驟可以使
37、我們得到更具體的信息.1.保存好一些LOG文件.(/tmp/hacmp.out & /tmp/cm.log).由于它們可能被掩蓋.2.認真檢查HACMP所產生的LOG文件.它們能供應最初的推斷線索.3.用HACMP的工具和AIX的命令來檢查HACMP的部件是否正常.4.打開HACMP的跟蹤工具來產生更具體的信息. .HACMP的LOG文件:以下文件都是文本文件,可以用VI來看.每個日志文件都含有每個信息的產生時間./usr/adm/cluster.log :記錄了HACMP的狀態,由HA的守護進程所產生./tmp/hacmp.out :記錄了HA的具體腳本./usr/sbin/clus
38、ter/history/cluster.mmdd :記錄了HA的各個大事的發生./tmp/cm.log :由clstrmgr進程產生,每次HA重起時會被掩蓋. .HACMP FOR AIX的結構 應用層HACMP軟件層LVM & TCPIP 層AIX 層物理網絡層物理硬盤層硬件層 在物理網絡層,物理硬盤層,硬件層,LVM & TCPIP 層,AIX 層 我們可以用AIX系統命令來看是否硬件和系統消滅了問題.一般地,在用errpt命令來看沒有類型為PH的錯誤,lsvg -o 來看我們所須的VG已varyon,mount來看我們所須的文件系統已安裝, netstat -i來看我們所
39、須的service IP是UP的狀態(或用ifconfig en*),cluster node 之間的service 與service IP ,standby與 standby IP 相互可以ping通.在各個節點上執行stty<在HACMP軟件層上,我們可以用vi /tmp/hacmp.out來看,假如消滅event failed的字段,則有可能問題消滅在該層,假如在問題消滅的時段,hacmp.out無信息消滅,則問題可能消滅在應用層. 以下是HA排錯的一些守則:.在第一時間保存好相關的日志文件,特殊是那些會被掩蓋的文件.嘗試去重復問題的消滅.不要被用戶所反映的問題迷惑.漸進地去重復問
40、題,假如有多個可能導致問題的消滅,一個一個地去重復,而不要一次重復多個可能.不要憑閱歷來推斷問題,而是要在各種測試后,由結果來推斷.隔離問題的來源,依據我們上面所敘述的層次關系,至頂向下地診斷.由簡到繁地做測試,我們先從一個簡潔的環境來做測試,不要嘗試在一個簡單的環境中測試.一次做一次改動,否則我們無法知道是那個改動解決了問題.不要忽視各種可能,因小可失大,留心系統的每一個細節,包括電源,插頭,連線等.保持各種測試的記錄以及解決的步驟,用做將來排錯的參考.撥打IBM服務熱線,將問題現象和您所做的測試結果告知IBM的工程師,他們將在CALL CENTER的測試中心重復試驗,必要時會派工程師到場解
41、決問題. 三 IBM HACMP 雙機系統的管理和維護 本節將說明HACMP 雙機軟件的一些基本管理和維護命令這些命令將會在HACMP 雙機系統的日常工作中經常用到.1 HACMP 雙機系統的啟動要啟動HACMP 雙機系統必需要有root 用戶的特權分別進入到系統各節點主機在命令行上執行下述命令即可.# smit clstart或# /usr/sbin/cluster/etc/rc.cluster -boot -N I需要留意的是在雙機系統中HACMP 雙機軟件先啟動的節點將成為主節點擁有資源并對外供應關鍵服務后啟動的節點將成為備節點.另外在啟動HACMP 前需要啟動雙機上的INFORMIX
42、和SCP 應用.2 HACMP 雙機系統的關閉要關閉某節點上的HACMP 雙機軟件必需要有該節點root 用戶的特權以root 用戶進入到該節點主機在命令行上執行下述命令即可.# smit clstop或# clstop -gr需要留意的是若該節點是主節點并且備節點上的HACMP 軟件亦正常運行則需留意clstop 關閉模式的三種選項的不同1 forced 是指馬上關閉雙機軟件不調用任何客戶應用的善后處理例程.2 graceful 是指在關閉雙機軟件時將調用客戶應用預定義的善后處理例程.3takeover 是指該節點將關閉雙機軟件并釋放資源懇求備節點進行接管.如該節點是備節點則關閉模式選項沒有
43、多大意義.另外關閉HACMP 將關閉manager 和informix.3 查詢HACMP 雙機系統的狀態在雙機系統的運行當中操作員經常需要知道雙機系統的當前狀態才有可能對雙機系統消滅的特別狀況進行恢復處理才能保證雙機系統的高可用性和高容錯性.查詢HACMP 雙機系統的狀態只需以root 用戶進入需要查詢的節點進行下列操作首先檢查HACMP 雙機軟件在該節點是否已啟動命令如下# lssrc -g cluster若是系統顯示出下面類似的信息則說明HACMP 雙機軟件已正常啟動.Subsystem Group PID Statusclstrmgr cluster 22500 activeclsmu
44、xpd cluster 23674 activeclinfo cluster 28674 active在已確認雙機軟件HACMP 正常啟動的狀況下在命令行執行下述命令來察看雙機系統的當前狀態# /usr/sbin/cluster/clstat -a假如雙機系統一切工作正常則系統將顯示下述類似信息clstat - HACMP for AIX Cluster Status MonitorCluster: scp_cluster(80) Thu Jan 20 08:45:17 TAIST 2000State: UP Nodes: 2SubState: STABLENode: mscp1 State:
45、 UPInterface: mscp1_svc (0) Address: 192.9.1.60State: UPInterface: mscp1_tty (1) Address: 0.0.0.0State: UPNode: mscp2 State: UPInterface: mscp2_svc (0) Address: 192.9.1.61State: UPInterface: mscp2_tty (1) Address: 0.0.0.0State: UP 七 常用的系統狀態查詢命令: # lsdev C s scsi列出各個SCSI設備的全部相關信息:如規律單元號,硬件地址及設備文件名等。#
46、 ps -ef 列出正在運行的全部進程的各種信息:如進程號及進程名等。# netstat -rn 列出網卡狀態及路由信息等。# netstat -in列出網卡狀態及網絡配置信息。# df -k 列出已加載的規律卷及其大小信息。# mount 列出已加載的規律卷及其加載位置。# uname -a 列出系統ID 號,系統名稱,OS版本等信息。# hostname 列出系統網絡名稱。# lsvg l rootvg,lsvg p rootvg顯示規律卷組信息,如包含哪些物理盤及規律卷等。# lslv l datalv,lslv p datalv顯示規律卷各種信息,如包含哪些盤,是否有鏡像等。 八 網絡
47、故障定位方法 網絡不通的診斷過程:ifconfig 查看網卡是否啟動 (up)netstat i 查看網卡狀態Ierrs/Ipkts 和 Oerrs/Opkts是否>1%ping自己網卡地址 (ip 地址)ping其它機器地址,如不通,在其機器上用diag檢測網卡是否有問題。在同一網中, subnetmask 應全都。網絡配置的基本方法:(1) 如需修改網絡地址、主機名等,肯定要用 chdev 命令# chdev l inet0 a hostname=myhost# chdev -l en0 -a netaddr=9.3.240.58 -a netmask=255.255.255.0(2
48、) 查看網卡狀態:# lsdev Cc if(3) 確認網絡地址:# ifconfig en0(4) 啟動網卡:# ifconfig en0 up(5) 配置路由有兩種方式加入路由:永久路由# chdev -l inet0 -a route=10.47.0.0,9.3.240.59臨時路由# route add 10.47.1.2 9.3.240.59用命令 netstat -rn 查看路由表 附:常用命令列表:Any XXXX, #, *, or X is to be substituted by a name, resource name or #,fn = filenameDIR = D
49、irectory| = pipe symbol bosboot -a -d /dev/hdiskx -rebuilds boot record/image on boot device(hdiskx)cat -view contents of a filecat /tmp/*.1 -view a file, look at outputcat fn fn > newfile -combines two files to a single filecd -will return you to default DIRcd / -will put in root DIRcd /xxxx -ch
50、ange you to a DIR anywhere is systemcd . -will drop you out of 1 DIR at a timecd xxxxx -will change you to a DIR in current dircfgmgr -will auto config devicescfgmgr -v & -(-v) shows processes (&) puts in backgroundchps -s xx hd# -increase paging space (xx=# of addtl PPs)cp oldfn newfn -copy
51、 a filecp oldfn Dirn -copy a file to another directorycrontab -l -list crontab entries for the current userctrl + v -will page down 1 pagectrl + 6 -will page up 1 pagedel fn -same as rm -i,promts to remove fndf -I -shows status of file systems (no inodes)df -Ik -(k) show status in 1024 bites(1mb)(on
52、ly AIX 4diag -a -updates changes in hardware configurationdiag * -*= a device type(as tape,disk.Fastpath)diag -cd rmtX -resets tape drivedosformat -formats a diskette to DOSdosdir -list files on dos formated diskettedosread XX YY -copies dos file XX to aix file YYdoswrite YY XX -copies aix file YY t
53、o dos file XXerrpt -generates a one line synopsis of logged errorserrpt | pg -list errorlog 1 page a time(1st column is ID)errpt -a -displays detailed information of logged errorserrpt -s Mmddhhmmyy -select entries posted later than dateerrpt -aj XXXXXXX -list detail error by ID number.(XXX=1st colu
54、mn)errpt -d S -list software errorserrpt -j XXXXXXX -list summary report by ID number.errpt -aN XXXXXX -list detailed report by resource name columnerrpt -N XXXXXXX -list summary report by resource name columnerrclear 0 -clears errorlogerrclear -N XXXXX 0 -clears errorlog by resource name, 0=all ent
55、ererrclear -j XXXXX 0 -clears errorlog by ID number.finger -same as who but with more detailsflcopy -copies a diskette to another disketteformat -formats a diskette in default diskette driveformat -l -formats in lower denity: 1.44 on 2.44 / 720 on 1.44hostname -responds with host system namehost (hostname) -responds with internet addressinstfix -ik IPAR# -lists ipar fix was completely installedlppchk -v -checks install status of LPPslppchk -v 2> /dev/lpX -sends output of lppchk to printer lpxlpstat -a all -view all printer queueslptest 80 5 > /dev/lp0 -send test patter
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年廣西綠色稻米種植收購合同范本
- 氫氣安全培訓課程
- 自主安全管理培訓
- 2025年度企業并購合同內容概述
- 技能培訓專題:安全事故案例+圖片
- 青少年預防溺水
- 煤礦班組長管理培訓-井下安全標志
- 《引導式教學的策略》課件
- 2024年09月河南鄭州市特招醫學院校畢業生28人筆試歷年專業考點(難、易錯點)附帶答案詳解
- 2024年09月河南開封市特招醫學院校畢業生和特崗全科醫生69人筆試歷年專業考點(難、易錯點)附帶答案詳解
- 腰椎人工椎體置換術
- 綜合一體化指揮調度解決方案
- 家長會課件:七年級家長會班主任優質課件
- 人工智能導論智慧樹知到課后章節答案2023年下哈爾濱工程大學
- 腦中風病人病情觀察
- 第14課 背影 課件(共26張ppt)
- 汽車維修工(三級)技能理論考試題庫(濃縮300題)
- 石景山區行政事業單位資產清查業務培訓
- 《今天怎樣做教師-點評100個教育案例》讀書分享會PPT模板
- 高效節水灌溉技術與灌溉排水工程設計及案例分析
- 《將軍胡同》閱讀試題及答案
評論
0/150
提交評論