中科曙光HPC培訓(xùn)教程匯總:D02-集群調(diào)試—基礎(chǔ)環(huán)境配置_第1頁
中科曙光HPC培訓(xùn)教程匯總:D02-集群調(diào)試—基礎(chǔ)環(huán)境配置_第2頁
中科曙光HPC培訓(xùn)教程匯總:D02-集群調(diào)試—基礎(chǔ)環(huán)境配置_第3頁
中科曙光HPC培訓(xùn)教程匯總:D02-集群調(diào)試—基礎(chǔ)環(huán)境配置_第4頁
中科曙光HPC培訓(xùn)教程匯總:D02-集群調(diào)試—基礎(chǔ)環(huán)境配置_第5頁
已閱讀5頁,還剩12頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、基礎(chǔ)環(huán)境配置 調(diào)試工具clusconf介紹,高性能計算產(chǎn)品事業(yè)部,目錄,HPC集群特點介紹 Clusconf軟件簡介 Clussconf軟件安裝 集群初始配置 集群常用管理命令 Clusconf詳細功能介紹,HPC集群特點,常見的HPC 集群,一般由管理節(jié)點、登陸節(jié)點、計算節(jié)點、存儲節(jié)點等組成,擁有高速互聯(lián)的計算網(wǎng)絡(luò),以及必須的并行編譯環(huán)境、數(shù)學(xué)庫、應(yīng)用軟件、和集群管理軟件等。 根據(jù)規(guī)模和業(yè)務(wù)的不同,各項配置會有一定差別,但必須滿足如下三個基本要素: 1)全網(wǎng)互通,并實現(xiàn)節(jié)點間ssh無密碼登錄; 2)統(tǒng)一的用戶信息管理,可通過配置NIS或LDAP、同步本地用戶信息(要求操作系統(tǒng)一致)等方式實現(xiàn)

2、; 3)統(tǒng)一的文件映像,可通過配置nfs或部署并行文件系統(tǒng)實現(xiàn),目錄,HPC集群特點介紹 Clusconf軟件簡介 Clussconf軟件安裝 集群初始配置 集群常用管理命令 Clusconf詳細功能介紹,Clusconf軟件簡介,clusconf 集群部署管理工具是為簡化高性能(HPC)集群部署,方便集群的維護和管理而開發(fā)的腳本工具,支持集群一鍵配置、集群服務(wù)配置、并行命令、文件同步、用戶管理、集群備份等功能,主要特點如下: 1)clusconf 可用于部署標(biāo)準(zhǔn)(遵循【曙光高性能集群實施規(guī)范】)或非標(biāo)準(zhǔn)的HPC 集群,并可以對部署好的集群進行進一步的配置和日常的管理; 2)clusconf

3、采用命令行操作,兼容shell 環(huán)境及各種系統(tǒng)命令,提供靜默執(zhí)行模式,方便腳本調(diào)用,支持執(zhí)行日志以及集群自動配置等各項功能; 3)clusconf-2.0.1支持RHEL/CentOS-7.x、 RHEL/CentOS-6.x,Gridview中提供的集群部署,管理等部分功能由clusconf提供底層支持。 4)目前最新的clusconf 版本為:clusconf-2.0.1.tgz,目錄,HPC集群特點介紹 Clusconf軟件簡介 Clussconf軟件安裝 集群初始配置 集群常用管理命令 Clusconf詳細功能介紹,Clusconf軟件安裝,管理節(jié)點安裝,集群安裝,初次上傳可將clus

4、conf 放置到root 家目錄或/opt 目錄下,配置好集群共享存儲后須統(tǒng)一按規(guī)范將軟件安裝包移動至/public/sourcecode 下,方便后期維護管理。 上傳軟件后執(zhí)行如下命令安裝, tar xvf clusconf-2.0.1.tgz # cd clusconf-2.0.1/ # ./install,按提示輸入軟件的安裝路徑,無特殊需求請使用默認值:/opt/clusconf 執(zhí)行如下命令加載環(huán)境變量或重新登錄shell,即可使用clusconf 各項功能, source /etc/profile.d/clusconf-env.sh,將/etc/profile.d/clusconf

5、-env.sh 文件和/opt/clusconf 安裝目錄同步到所有節(jié)點。此操作可以通過一鍵配置集群功能或如下命令完成, clusconf -f nodelist -yf /opt/clusconf # clusconf -f nodelist -yf /etc/profile.d/clusconf-env.sh,目錄,HPC集群特點介紹 Clusconf軟件簡介 Clussconf軟件安裝 集群初始配置 集群常用管理命令 Clusconf詳細功能介紹,集群初始配置,節(jié)點環(huán)境準(zhǔn)備,集群中所有節(jié)點需預(yù)先安裝好操作系統(tǒng) 完成集群中所有節(jié)點的網(wǎng)絡(luò)布線,以及管理網(wǎng)的IP 配置,互相可ping 通 需按

6、規(guī)范提前配置好/etc/hosts 文件,clusconf 默認從此文件獲得節(jié)點的 IP 和主機名 如需配置NFS 共享存儲,需配置好/opt/clusconf/etc/nfs.cfg 文件 按規(guī)范配置IPMI 監(jiān)控網(wǎng)絡(luò),須配置好/opt/clusconf/etc/ipmi.cfg 文件,配置步驟,1)首先建議檢查網(wǎng)絡(luò)的聯(lián)通是否正常, clusconf -tn,2)配置ssh無密碼訪問, clusconf -ss,3)同步hosts文件, clusconf -yf /etc/hosts,集群初始配置,4)調(diào)整并配置集群相關(guān)服務(wù), clusconf -set-service,5)同步系統(tǒng)用戶,

7、clusconf -yu,6)同步系統(tǒng)時間(可選, clusconf -yt,7)配置NFS共享存儲(可選, clusconf -set-nfs,快速自動配置(不推薦, clusconf -sa 或 clusconf -set-all,快速自動配置命令將按照順序執(zhí)行上述命令,對集群功能進行配置,一般不推薦使用此功能,建議手動配置,容易發(fā)現(xiàn)集群存在的問題,目錄,HPC集群特點介紹 Clusconf軟件簡介 Clussconf軟件安裝 集群初始配置 集群常用管理命令 Clusconf詳細功能介紹,集群常用管理命令,clusconf 用于集群的配置,管理和環(huán)境檢查十分方便,常用的操作介紹如下,網(wǎng)絡(luò)檢

8、查, clusconf -tn, clusconf -f nodelist -tn, clusconf -p 前綴 -n 后綴 -tn,此命令根據(jù)hosts 文件檢查集群中所有節(jié)點所有網(wǎng)絡(luò)是否連通,此命令可檢查指定節(jié)點的網(wǎng)絡(luò)是否連通,nodelist 為主機名列表,也可對應(yīng)Infiniband 網(wǎng)絡(luò)的主機名(如inode*),或監(jiān)控網(wǎng)的主機名(如mnode*,此命令可在命令行中指定節(jié)點,后根據(jù)前綴篩選hosts 中的節(jié)點進行網(wǎng)絡(luò)測試,并行命令,執(zhí)行并行命令,各節(jié)點輸出結(jié)果相同可合并,方便查看和排查異常。多個命令或使用管道符等特殊字符可能需要將 shell 命令加上雙引號,否則clusconf會

9、將整個命令按實際規(guī)則做處理。-f,-p,-n 等參數(shù)仍然可以按上述功能調(diào)用。常見的命令舉例如下, clusconf -yd,集群常用管理命令, clusconf -yd “df h | grep public” #檢查共享存儲是否全部掛載 # clusconf -yd cat /etc/issue #檢查操作系統(tǒng)一致性 # clusconf -yd “df -h | grep public” #檢查共享存儲是否全部掛載 # clusconf -yd which mpirun #檢查某個環(huán)境變量的一致性 # clusconf -yd /etc/init.d/openibd restart #批量

10、重啟某個服務(wù), clusconf -yf 文件名(支持相對路徑及文件夾,此命令會將當(dāng)前節(jié)點的文件或文件夾同步到列表中的所有節(jié)點,節(jié)點上同名文件會覆蓋,一定要謹(jǐn)慎使用,如使用本地用戶信息同步的方式,clusconf 可完成用戶及組的添加,刪除等操作,詳細用法請參考軟件功能說明。 如使用NIS用戶管理,需要在管理節(jié)點上,執(zhí)行命令配置NIS服務(wù),文件同步,用戶管理,目錄,HPC集群特點介紹 Clusconf軟件簡介 Clussconf軟件安裝 集群初始配置 集群常用管理命令 Clusconf詳細功能介紹,Clusconf詳細功能介紹,本節(jié)對clusconf 提供的所有集群配置功能選項進行說明,| 前

11、后分別為clusconf 支持操作參數(shù)的全稱和縮寫形式。前面列出常用功能,后面標(biāo)紅色的功能是未經(jīng)過詳細測試或者有風(fēng)險的功能,使用時應(yīng)謹(jǐn)慎,1) -set-ssh|-ss)配置集群的ssh 無密碼訪問 2) -set-service|-sv)一鍵配置HPC 集群需調(diào)整的相關(guān)服務(wù),如關(guān)閉selinux,防火墻,NetworkManager,sendmail 等,并添加修改各項系統(tǒng)限制參數(shù) 3) -set-nfs|-sf)配置集群的NFS 共享存儲 4) -sync-time|-yt)配置時間同步服務(wù),并同步集群時間為當(dāng)前節(jié)點時間 5) -sys-info|-si)檢查并顯示集群系統(tǒng)的配置信息 6)

12、 -check-os|-co)檢查操作系統(tǒng)一致性 7) -disp-cpu|-dc)檢查并顯示CPU 負載大于5%的進程 8) -sync-user|-uy|-yu)同步本地用戶信息 9) -adduser|-useradd|-ua|-au)添加用戶并同步到集群(本地) 10) -deluser|-userdel|-ud|-du)刪除集群用戶(本地) 11) -addgroup|-groupadd|-ga|-ag)添加用戶組并同步到集群 12) -adduser-nis|-useradd-nis|-ua-nis|-au-nis)添加用戶(NIS管理) 13) -deluser-nis|-use

13、rdel-nis|-ud-nis|-du-nis)刪除集群用戶(NIS管理) 14) -addgroup-nis|-groupadd-nis|-ga-nis|-ag-nis)添加用戶組(NIS管理) 15) -sync-do|-yd)在集群中節(jié)點同步執(zhí)行相同的命令 16) -sync-file|-yf)同步文件或文件夾到整個集群 17) -ipmi-info|-ii)顯示節(jié)點的IPMI 地址和電源狀態(tài)信息,Clusconf詳細功能介紹,以下功能是未經(jīng)過詳細測試或者有風(fēng)險或者不再推薦使用的功能,配置時應(yīng)謹(jǐn)慎,1) -set-rsh|-sr)配置集群的rsh 無密碼訪問 2) -set-nis|-

14、sn)配置NIS用戶集中管理 3) -set-all|-sa)一鍵完成集群的基本配置,具體內(nèi)容見集群快速配置 4) -set-ipmi|-is)一鍵設(shè)置集群中所有節(jié)點的IPMI 地址,注意,如果有刀片節(jié)點,需要先在管理模塊中進行配置 5) -set-md5check|-sm)配置定期對文件系統(tǒng)的MD5 檢查,用于出現(xiàn)攻擊或文件非法篡改是追蹤變化 6) -set-loginsafe|-sl)配置登陸限制,包括ssh 登錄失敗次數(shù)限制,禁止ping,修改ssh 默認端口以及禁止root 用戶ssh 登錄等 7) -ipmi-poweron|-in)IPMI 遠程開機 8) -ipmi-poweroff|-if) IPMI 遠程關(guān)機 9) -ipmi-ipoweron|-iin)IPMI 遠程智能開機,可

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論