P740小型機日常維護手冊_第1頁
P740小型機日常維護手冊_第2頁
P740小型機日常維護手冊_第3頁
P740小型機日常維護手冊_第4頁
P740小型機日常維護手冊_第5頁
已閱讀5頁,還剩22頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、 P740小型機日常維護手冊 目 錄一. 設備環境介紹二. 系統操作三. 巡檢操作四. 常用操作五. 日常事務六. 常用命令一. 設備環境介紹設備型號:IBM P740 8205-E6C設備功能介紹:本項目為:全省操作風險管理系統工程,小型機主要承擔授權數據庫與事后監督數據庫穩定運行與備份的任務。其中兩臺小型機采用互為備份方式:設備拓撲簡介:設備連接介紹:每個地市數據中心采用 2 臺 IBM Power 740 小型機服務器運行數據庫系統,分別運行 HACMP 軟件,配置成雙機互備系統,保證系統的高可靠性。2 臺 IBM Power 740 分別通過 2 根光纖連接到 2 臺存儲光纖交換機,2

2、 臺磁盤陣列通過 2 根光纖連接到 2 臺存儲光纖交換機,如此連接即保證了可靠性,又提高了數據訪問的效率。設備磁盤管控:小型機 1 主機名為:tyxxdb1, (HMC 管理 IP 為 )自身擁有 IP , 默認提供數據庫名為 TYSQDB 的服務服務 IP 為 默認掛載磁盤/tysqdbdata 和 /rmansq小型機 2 主機名為:tyxxdb2, (HMC 管理 IP 為 )自身擁有 IP , 默認提供數據庫名為 TYSQDB 的服務服務 IP 為 默認掛載磁盤/tyhddbdata 和 /rmanhd掛載的磁盤/tysqdbdata 分配空間為: 750G/rmansq 分配空間為:

3、 875G掛載的磁盤/tyhddbdata 分配空間為: 1150G/rmanhd 分配空間為: 1275G二. 系統操作系統開關機,檢查硬件有無故障。2.1 開機登錄在開機之前,先檢查電源是否插好;然后,按下前面板上白色電源開關后,主機會進入硬件自檢和引導階段;此時,前面板上的液晶會有代碼跳動,每一個代碼表示自檢或引導的不同階段,最后在引導結束時,前面板液晶上的代碼消失,彩顯或終端上有顯示,進入系統初始化和登錄提示,當登陸界面出現時,輸入用戶名 root 及口令(root) ,以進入系統。報修:如果主機停在某一代碼上,引導不下去(大于半小時),說明系統可能有故障,請與我們聯系。IBM 報修方

4、式:致電 800-810-1818 / 5858,報本設備的序列號,并把代碼一起報 IBM 公司。2.2 asm 方式開機asm 登錄方法:通過管理網絡,web 登錄到 47 和 47用戶名/密碼: admin/admin登錄 asm 后, 依次打開 Power/Restart Control, Power on/off System, 此界面會顯示當前電源狀況: on 或 off, 按下方 Save setting and power on 或 off, 使小型機開機或關機。2.3 查看報錯依次找到 System Service Aids , Errors/Event Logs可檢查是否有報

5、錯日志2.4 登錄 AIX 系統關機telnet 到 /2 , 輸入 smitty clstop 命令,然后連續回車兩次以執行停止HACMP 的進程。使用 shutdown F 命令完成關機操作使用 shutdown Fr 命令完成重啟操作2.5 啟動服務telnet 到 /2 , 輸入 smitty clstart 命令,然后連續回車兩次以執行啟動HACMP 的進程。使用 ps ef|grep ora 顯示是否啟動數據庫進程排查 HA 服務是否正常,請參照如下:巡檢操作三. 巡檢操作步驟 1:通過 telnet 或者直連顯示器登錄到 和 用命令 smitty hacmp選擇第四項 Probl

6、em Determination Tools,再進入到第二項 View Current State, 查看當前 HACMP 群集的狀態是否正常;或者使用命令/usr/sbin/cluster/clstat 查看群集狀態;按 q 退出Cluster Substate 字段顯示為: stable, 表示群集狀態穩定;群集狀態:步驟 2:用命令 netstat in 查看服務 IP: 和 是否能在主機上顯示出來。小型機 1 的網卡信息是否含有 IP 小型機 2 的網卡信息是否含有 IP 步驟 3:用命令 df g 查看服務IP 對應的文件系統是否已掛載小型機 1的磁盤掛載信息是否包含 /rmansq

7、 /tysqdbdata小型機 2 的磁盤掛載信息是否包含 /rmansq /tysqdbdata四. 常用操作HACMP 的操作啟動:smitty clstart停止:smitty clstop啟動/停止過程可以查看/tmp/hacmp.out 文件:# tail f /tmp/hacmp.out檢查 Cluster 是否運行正常Cluster 進程是否運行:#lssrc g cluster,至少兩個進程,且為 active。IP 地址是否獲?。?netstat in,看 srv ip 是否存在。VG 是否 varyon:#lsvg o文件系統是否 mount:#mount應用進程是否啟動:

8、#ps ef | grep oraHACMP 相關日志/usr/es/adm/cluster.log;以事件為單位的紀錄/tmp/hacmp.out;詳細記錄/usr/sbin/cluster/history/cluster.mmdd;歷史紀錄五. 日常事務系統管理員應經常性地檢查一些項目,以保證系統可靠和有效地運行。通常建議檢查以下項目:(1)系統運行性能:了解系統當前運行性能是否在正常范圍內。(2)系統參數和環境變量:是否有參數或變量影響系統使用、系統性能或安全等。(3)系統可靠性設定:如 rootvg 是否鏡像以及鏡像是否有效,dump 設置是否有效等。5.1 檢查系統運行性能目的:了解

9、系統當前運行性能評估。原理:通常從 CPU、內存、IO、網絡四個方面依序來評價系統運行性能。要點:(1)AIX 的性能好并不代表數據庫性能或業務應用系統性能好。(2)性能的評價應該是個持繼的過程,應從多個不同時段去評估。(3) 參數調整應慎之又慎。 一次不要調多組參數。 調整要有記錄并留有觀察期。5.1.1 綜合性能查看命令功用說明: 以下為通常的評價指標#w查看平均負載 load average0-3:輕 3-7:中等 7 重#topas綜合顯示多項指標:如 CPU、內存、IO、進程等按“h”鍵得到各指標項解釋#vmstat1 10顯示 CPU、內存等運行指標,間隔 1 秒持續 10 次觀察

10、us+sy 80 :CPU 負載重wa 35 : IO 負載重pi/po 持續非 0 :內存不足#lsps -s 或#lsps -a查看虛擬交換區使用情況平均使用率設置用戶提示符改為 Ready。說明:PS1 用戶登錄后的正常提示符;PS2 是續行提示符,即命令一行寫不完時要在第二行顯示一個提示符表示這是繼行;PS3 是 root 身份提示符,即用戶 su 到 root 身份后的提示符。AIX 系統中時間設置包括時區、夏時制、日期和時間,要特別關注時區和夏時制問題,如果設置不正確,將會引起系統時間按錯誤的時區規則而改變。#echo $TZ顯示系統當前時區設置。echo 命令用于顯示變量值。在大

11、陸地區,該命令的正確結果通常為 BEIST-8,即中華人民共和國時區(東 8 區無夏時制) 。有時輸出結果類似于:BEIST-8BEIDT(東 8 區有夏時制,DT 表示有夏時制)或 CST6DT 等。這樣的時區設置通常是錯誤的,與中國大陸實際情況不符。要修改時區:#chtz BEIST-8 :修改后一定要重啟主機才能生效。5.2.2 幾個主要的系統運行參數設定每個參數組用相關 smit 快速菜單進入后,可能會再有子菜單或選項。舉例:AIO5.3 檢查 rootvg 設置5.3.1 檢查 rootvg 鏡像目的:確保 rootvg 是有效鏡像保護的,防止因硬盤故障而引起系統宕機。原理:AIX

12、操作系統安裝在 rootvg 中。通常將 rootvg 中的重要 lv 做成分盤鏡像, 也就是每份鏡像的 lv 數據都同時分布在兩個硬盤上。這樣其中一個硬盤故障時,AIX 操作系統仍能工作。要點:要經常檢查 rootvg 的鏡像是否有效?兩個盤是否都設為可啟動?命令:#lsvg -l rootvg舉例:雖然 rootvg 有做 lv 鏡像,但還要進一步確保兩份數據都可以用于啟動 AIX舉例:5.3.2 檢查 DUMP 設置目的:檢查 DUMP 設置是否符合要求。原理:AIX 系統崩潰(crash)發生時,會將當時的內存內容 dump 到 dumpdevice。系統安裝時自動創建兩個 dump

13、device:/dev/dumplv(優先用)和/dev/sysdumpnull(次之) 。Dump 發生之后,通常由人工重啟 AIX。AIX 啟動過程中, 再將 dump device 中的內容拷貝到/var/adm/ras 目錄下, 命名為 vmcore.x文件,供分析之用。vmcore.x 文件通常都是很大的。要點:1)dump device(lv)不要設置 lv copy,即該 lv 的 LPs:PPs=1。2)系統每天自動檢查/var 剩余空間,如不足以存放可能的 DUMP 內容,則會在錯誤日志中給出警示信息。命令:六. 常用命令6.1 系統方面檢查系統狀態:系統整體: prtcon

14、f文件系統: df k,df -g設備:lsdev C 獲取設備名稱、狀態、位置和描述。查看硬盤: lsdev Cc disk查看適配卡: lsdev Cc adapter處理器個數:lsdev C|grep proc系統配置:lscfg vp 獲取所有已配置硬件設備的詳細信息。查看硬盤信息: lscfg vl hdiskx x 表示數字查看網卡信息: lscfg vl entx x 表示數字查看硬件屬性:lsattr El 獲取已配置設備的屬性信息。查看硬盤屬性: lsattr El hdiskx x 表示數字查看網卡屬性: lsattr El entx x 表示數字內存大?。?lsattr

15、 El mem0磁盤 lspv交換分區 lsps a軟件 lslpp l 文件包名字用戶 whoami關機命令:shutdown一分鐘后關機shutdown +2二分鐘后關機shutdown Fr關機重啟(-r)關機命令調用/etc/rc.shutdown 關閉程序可以在這個文件里加上你自己的腳本6.2 其它基本命令mkdir/rm/mv/cd -用于創建目錄/刪除文件或目錄/更改文件或目錄名/進入某一目錄ls 顯示目錄中的內容(文件名)#ls a 列出當前目錄中的所有文件#ls l 顯示文件的詳細信息ps / kill 顯示后臺進程的有關信息或殺死后臺進程#kill -9 253432fin

16、d 在一個/多個目錄中查找符合條件的文件#find name t* -printhead/tail 顯示文件頭/尾聲的內容#tail +200 filenamewho/finger 列出系統注冊/已登錄的用戶#who am I#finger oracle6.3 顯示文件和目錄的空間占用量du /home |sort rn6.4 安全性記錄文件/var/adm/sulog記錄每次 su 命令的執行。這是個文本文件。使用任何觀看文本文件的命令查看。/var/adm/wtmp 和/etc/utmp記錄用戶的成功登錄。使用 who 命令查看。/etc/security/failedlogin記錄所有不

17、成功的登錄嘗試。 如果用戶名不存在, 記錄為 UNKNOWN 項目。使用 who 命令查看。安全性相關文件包含用戶屬性和訪問控制的文件/etc/passwd 合法用戶(無口令內容)/etc/group 合法用戶組/etc/security/passwd 含有加密形式的用戶口令/etc/security/user 用戶屬性,口令限制/etc/security/limits 對用戶的限制/etc/security/environ 用戶環境設定/etc/security/login.cfg 登錄設置/etc/security/group 用戶組屬性6.5用戶環境的合法性檢查和修正檢查/etc/pas

18、swd/與/etc/security/passwd 的一致性,以及/etc/security/login.cfg 和/etc/security/user,同時修正錯誤:pwdck -y ALL檢查/etc/security/user、 /etc/security/limits、 /etc/security/passwd,以及是否每個組在/etc/group 和/etc/security/group 中都有對應條目, 并修正錯誤:usrck -y ALL檢查/etc/group、 /etc/security/group、 /etc/passwd 和/etc/security/user中關于用戶組

19、的內容的一致性,并修正錯誤:grpck -y ALL6.6 錯誤日志查看 所有 AIX 錯誤都記錄在一個記錄文件中/var/adm/ras/errlog 顯示錯誤errpt -a -a 為詳細顯示可以輸出到文件或用 more、pg 察看清空錯誤記錄信息errclear 0建立/修改口令通過 errpt 產生錯誤報告顯示所有的錯誤報告# errpt只報告硬件錯誤# errpt -d -H描述 ID 為 F49E2A17 的錯誤報告# errpt -a -j F49E2A17例:# errpt標識C :錯誤歸類H:硬件S:軟件O:操作錯誤U:不能確定標識T :錯誤類型PERM(并且 C 為 H):

20、顯示系統遇到硬件問題并且無法自動修復PERD(并且 C 為 H):系統硬件變為不可用并引起一系列錯誤系統PERM(并且 C 為 S):顯示系統遇到軟件問題并且無法自動修復TEMP(并且 C 為 S):顯示系統遇到軟件問題并且已經自動修復root 用戶通過手工命令 errclear 直接清除錯誤日志# errclear 10清除 10 天以前的所有日志# errclear -d H 0清除所有硬件的錯誤# errclear -N disk 0刪除所有資源組為 disk 的記錄# errclear -T UNKN 0刪除所有類型為 unknown 的記錄# errclear 0刪除所有記錄 顯示

21、error log 的特性# /usr/lib/errdemon -lError Log AttributesLog File /var/adm/ras/errlogLog Size 1048576 bytesMemory Buffer Size 8192 bytes6.7 Performance Tools常用命令# ps# sar# vmstat# iostat# tprof# svmon# filemon例:CPU 的使用情況(sar u)這條命令的語法是:# sar options interval number例如:# sar u 60 3AIX NODE 2 3 00000211 07/06/99%usr %sys %wio %idle08:25:11 48 52 0 008:26:10 63 37 0 008:27:12 59 41 0 0.Average 56 44 0 0當 %usr+%sys 80% 時,CPU 緊張查看運行隊列(sar q)這條命令的語法是:# sar options interval number例如:# sar q 60 3AIX NODE 2 3 0000021

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論