




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、高性能計(jì)算解決方案介紹Content高性能計(jì)算應(yīng)用行業(yè)及場(chǎng)景高性能計(jì)算概述高性能計(jì)算解決方案市場(chǎng)拓展及競(jìng)爭(zhēng)分析1234什么是HPCHPC發(fā)展歷史(source:)200020131990-20001980-19901970-1980MPP向量機(jī)DSMCluster高性能計(jì)算系統(tǒng)的架構(gòu)演變?nèi)騂PC系統(tǒng)主流架構(gòu)(cluster和MPP)以計(jì)算為目的,使用了很多處理器的單個(gè)計(jì)算機(jī)系統(tǒng)或者使用了多臺(tái)計(jì)算機(jī)集群的計(jì)算系統(tǒng)和環(huán)境什么是高性能計(jì)算HPC市場(chǎng)分析2015年市場(chǎng)空間252億美金,年復(fù)合增長(zhǎng)率為8.3%,服務(wù)器、存儲(chǔ)硬件占比70%區(qū)域:北美日本(49%),EMEA(33%)、亞太區(qū)(17%)占5
2、0%市場(chǎng)行業(yè):教育科研、政府/國(guó)防、生物科學(xué)、計(jì)算機(jī)仿真等區(qū)域和行業(yè)占比趨勢(shì)一:應(yīng)用越來越廣由傳統(tǒng)科學(xué)計(jì)算擴(kuò)散到新興行業(yè)廣泛應(yīng)用于汽車、飛機(jī)、船舶、鋼鐵、石油、新能源、集成電路等眾多領(lǐng)域。 增加材料產(chǎn)品率 25% 降低工程技術(shù)成本 13%30% 降低人工成本 5%20% 增加設(shè)備利用率 30%60% 縮短產(chǎn)品研發(fā)周期 30%60% -美國(guó)國(guó)家科學(xué)院工程技術(shù)委員會(huì)報(bào)告工業(yè)創(chuàng)新物理,化學(xué),天文,新材料,生物醫(yī)藥等眾多領(lǐng)域的 主要研究途徑之一;宇宙行星、微觀粒子、高溫高壓等難以實(shí)驗(yàn)領(lǐng)域進(jìn)行 創(chuàng)新研究的唯一途徑。科學(xué)研究天氣預(yù)報(bào)、傳染病擴(kuò)散、大型集會(huì)安全分析、 社會(huì)動(dòng)力學(xué)、宏觀經(jīng)濟(jì)學(xué)、高教研究等。基于
3、數(shù)學(xué)模型使用超級(jí)計(jì)算機(jī)進(jìn)行數(shù)值模擬是 上述領(lǐng)域從定性到定量,獲得更可信結(jié)果的唯一手段。社會(huì)與公眾服務(wù)交易實(shí)時(shí)處理,金融模擬分析,商業(yè)數(shù)據(jù)挖掘, 物流與生產(chǎn)排程規(guī)劃等。在發(fā)達(dá)國(guó)家,金融是超級(jí)計(jì)算最重要的應(yīng)用領(lǐng)域之一; 美國(guó)有超過10%的超級(jí)計(jì)算機(jī)部署在各大金融機(jī)構(gòu)。商業(yè)金融HPC市場(chǎng)洞察方案競(jìng)爭(zhēng)打法HPC趨勢(shì)二:集中化、服務(wù)化混合共享HPC服務(wù)平臺(tái)* 保證重點(diǎn)優(yōu)先任務(wù)資源* 資源共享利用率高* 靈活分配資源* 統(tǒng)一管理運(yùn)維共享HPC 服務(wù)123Centralize”Shared-platform era”“Solo HPC”Centralize* 統(tǒng)一集中建設(shè)* 統(tǒng)一管理* 單位內(nèi)共享* 統(tǒng)一規(guī)
4、劃綜合平臺(tái)孤島集中化共享平臺(tái)HPC趨勢(shì)三:計(jì)算能力增加,單位能耗降低,存儲(chǔ)增長(zhǎng)迅猛NO.1 每年計(jì)算峰值TOP 500 單位能耗計(jì)算能力Source: T Website計(jì)算能力每年翻番 單位能耗計(jì)算能力快速增長(zhǎng)MFlops/WattHPC市場(chǎng)洞察方案競(jìng)爭(zhēng)打法 存儲(chǔ)數(shù)據(jù)量迅速增長(zhǎng)XX HPC 數(shù)據(jù)存儲(chǔ)增長(zhǎng)情況HPC趨勢(shì)四:X86集群+文件系統(tǒng)架構(gòu)成為主流86%6%97%88%44% 處理器 操作系統(tǒng)GUGPU加速互聯(lián)網(wǎng)絡(luò)Intel X868%AMDX869OthersLinuxCPU16%40%12%IBIPOthersCPU+GPGPUOthers3%數(shù)據(jù)來源:TOP500.org86%Cl
5、usterMPP14%系統(tǒng)架構(gòu)Cluster、X86、Linux、高速網(wǎng)絡(luò)、并行文件系統(tǒng)成新的發(fā)展趨勢(shì)95%Parallel File systemNAS5%存儲(chǔ)系統(tǒng)HPC市場(chǎng)洞察方案競(jìng)爭(zhēng)打法2014年HPC市場(chǎng)進(jìn)展迅猛,訂貨年增長(zhǎng)500% 2014年HPC項(xiàng)目行業(yè)分布訂貨主要來自:中國(guó)、中亞、西歐、東北歐70的訂貨來自:教育科研2014年HPC全球市場(chǎng)分布2014 年HPC解決方案訂貨20M+,國(guó)內(nèi)海外各半主要四個(gè)區(qū)域/國(guó)家貢獻(xiàn)80的訂貨項(xiàng)目管道超過200個(gè),中標(biāo)項(xiàng)目超過30個(gè)成功項(xiàng)目以中等規(guī)模為主(0.4M2M)HPC市場(chǎng)洞察方案競(jìng)爭(zhēng)打法HPC成功案例在全球快速?gòu)?fù)制,教育行業(yè)形成規(guī)模美國(guó)數(shù)
6、字領(lǐng)域公司(Digital Domain)美國(guó)內(nèi)布拉斯加大學(xué)美國(guó)田納西大學(xué)澳門氣象局新加波GlobalFoundries菲律賓氣象局防災(zāi)科技學(xué)院河南省環(huán)保廳北京數(shù)據(jù)通信研究院北京航空航天大學(xué)首都醫(yī)科大學(xué) 上海眾信生物有限公司長(zhǎng)沙國(guó)家超級(jí)計(jì)算中心廣州國(guó)家超級(jí)計(jì)算中心荷蘭水利局意大利CNR英國(guó)紐卡斯?fàn)柎髮W(xué)(1/2/3/4期)俄羅斯圣彼得堡大學(xué)委內(nèi)瑞拉國(guó)家石油公司墨西哥農(nóng)業(yè)部墨西哥水利局智利天文臺(tái)巴西麥肯錫大學(xué)法國(guó)照明公司 德國(guó)愛倫堡水管局波蘭PCSS大學(xué)波蘭華沙大學(xué)ICM學(xué)院土耳其學(xué)術(shù)網(wǎng)絡(luò)與信息中心(ULAKBIM)土耳其Yilidiz科技大學(xué)(YTU)土耳其伊斯坦布爾科技大學(xué)(ITU)土耳其哈蘭
7、大學(xué)(HU)中國(guó)電力科學(xué)院 上海801所天津中新生態(tài)城涿州物探鳳凰工程北京交通大學(xué)西南大學(xué)心理學(xué)院北京林業(yè)大學(xué)河北省環(huán)保局2013年中標(biāo)項(xiàng)目2014年中標(biāo)項(xiàng)目日本九州大學(xué)中國(guó)日本歐洲亞太美國(guó)拉美中亞HPC市場(chǎng)洞察方案競(jìng)爭(zhēng)打法Content高性能計(jì)算應(yīng)用行業(yè)及場(chǎng)景高性能計(jì)算概述高性能計(jì)算解決方案市場(chǎng)拓展及競(jìng)爭(zhēng)分析12341HPC概述解決方案2場(chǎng)景及行業(yè)3目錄 contents 競(jìng)爭(zhēng)分析4 整體方案及策略 計(jì)算節(jié)點(diǎn) 存儲(chǔ)節(jié)點(diǎn) 網(wǎng)絡(luò)方案 管理軟件 開發(fā)環(huán)境HPC解決方案整體架構(gòu)典型HPC組網(wǎng)拓?fù)鋱D存儲(chǔ)系統(tǒng)管理/登陸節(jié)點(diǎn)計(jì)算集群硬件管理網(wǎng)GPU節(jié)點(diǎn)胖節(jié)點(diǎn)系統(tǒng)管理網(wǎng)高速計(jì)算網(wǎng)備注:計(jì)算網(wǎng)和數(shù)據(jù)網(wǎng)往往共用
8、一套網(wǎng)絡(luò)HPC集群系統(tǒng)組成計(jì)算軟件存儲(chǔ)網(wǎng)絡(luò)HPC系統(tǒng)的基本構(gòu)成并行化應(yīng)用模式應(yīng)用結(jié)點(diǎn)間通訊系統(tǒng)與控制內(nèi)部互連計(jì)算單元處理器,物理層設(shè)計(jì),硬件管理Linux, Windows, Unix操作系統(tǒng)與配置管理 操作系統(tǒng)中間件通訊函數(shù)庫 (MPI, DVSM, PVM, etc) 集群控制與管理 開發(fā)工具編譯器,函數(shù)庫,性能分析與調(diào)試工具 作業(yè)管理批作業(yè)序列與調(diào)度,集群監(jiān)控,系統(tǒng)擴(kuò)展工具供電系統(tǒng),制冷系統(tǒng),機(jī)房環(huán)境基礎(chǔ)架構(gòu)HPC解決方案全景圖 :聚焦硬件平臺(tái)、軟件合作為主Parallel file systemParallel environmentCompile and development Ap
9、plicationCAE/CFDOil explorationAnimation renderingClimatic environmentResearch/ Life sciencesNvidia GPGPURackV3 storageIntel PhiOceanStor 9000QIB/ 0GEIB/40GEBladeWindowsLinuxCentOS+ComputingStorageNetworkHardwareOSComputing environmentSystem & environmentCHESSPBS WorksLSFJ H SchedulerXuanyunBCMClust
10、er ManagementContainer Data CenterModular Data CenterFacilityHUAWEISI or HUAWEISI 計(jì)算節(jié)點(diǎn)類型特點(diǎn)應(yīng)用場(chǎng)景MPI計(jì)算節(jié)點(diǎn)(瘦節(jié)點(diǎn))一般是2路服務(wù)器組成集群MPI集群計(jì)算,適應(yīng)于絕大多數(shù)HPC應(yīng)用,一般項(xiàng)目中MPI節(jié)點(diǎn)配置數(shù)量最多SMP計(jì)算節(jié)點(diǎn)(胖節(jié)點(diǎn))4路或者8路服務(wù)器,內(nèi)存容量大適用于對(duì)單節(jié)點(diǎn)有大內(nèi)存需求的應(yīng)用,一般內(nèi)存配置在512G以上GPU計(jì)算節(jié)點(diǎn)通過協(xié)處理器GPU/PHI加速運(yùn)算,一般要求有1GPU/node、2GPU/node、4GPU/node一些HPC應(yīng)用支持GPU計(jì)算加速,比如生命科學(xué)和石油勘探領(lǐng)
11、域的部分軟件,推薦配置Nvidia Tesla系列的GPU進(jìn)行計(jì)算加速計(jì)算節(jié)點(diǎn)包括: MPI節(jié)點(diǎn) 胖節(jié)點(diǎn) GPU節(jié)點(diǎn)HPC 系統(tǒng)主要性能指標(biāo)總計(jì)算能力:以每秒執(zhí)行浮點(diǎn)運(yùn)算的次數(shù)(flop/s)為計(jì)算性能的基本單位。峰值性能(Rpeak):集群可以達(dá)到的理論性能實(shí)際性能(Rmax): 集群實(shí)際測(cè)試Linkpad可以達(dá)到的最大性能。計(jì)算效率:實(shí)測(cè)性能與峰值性能的比值。峰值計(jì)算公式:?jiǎn)闻_(tái)服務(wù)器峰值性能=CPU主頻*CPU核數(shù)*CPU個(gè)數(shù)*單周期最大浮點(diǎn)指令數(shù)V2的單周期最大浮點(diǎn)指令數(shù)為8V3的單周期最大浮點(diǎn)指令數(shù)為16例如:配置E5-2680 V2 CPU(10core2.8GHz)的單臺(tái)RH228
12、8的峰值性能計(jì)算如下:峰值性能=2.8 GHz * 10 * 2 * 8 = 448 Gflops集群峰值:?jiǎn)闻_(tái)服務(wù)器的峰值浮點(diǎn)性能計(jì)算節(jié)點(diǎn)個(gè)數(shù)applicationOS、執(zhí)行環(huán)境SupercomputerHPC浮點(diǎn)運(yùn)算快MFLOPS:百萬次106 GFLOPS:十億次109 TFLOPS:萬億次1012 PFLOPS:千萬億次1015 EFLOPS:百億億次1018 GPGPU技術(shù)什么是GPGPU:利用GPU的處理能力來做通用的浮點(diǎn)運(yùn)算。GPU與CPU是不同的:CPU的微架構(gòu)是按照兼顧“指令并行執(zhí)行”和“數(shù)據(jù)并行運(yùn)算”的思路而設(shè)計(jì)。CPU的大部分晶體管主要用于構(gòu)建控制電路和CacheCPU的
13、5%是ALU,控制電路設(shè)計(jì)更加復(fù)雜CPU的內(nèi)存延遲是GPU的1/10GPU其實(shí)是由硬件實(shí)現(xiàn)的一組圖形函數(shù)的集合。GPU控制電路相對(duì)簡(jiǎn)單,而且對(duì)Cache的需求小,所以可以把大部分的晶體管用于計(jì)算單元GPGPU的40%是ALUGPGPU的內(nèi)存帶寬是CPU的10倍計(jì)算節(jié)點(diǎn)類型特點(diǎn)備選服務(wù)器MPI計(jì)算節(jié)點(diǎn)(瘦節(jié)點(diǎn))一般是2路服務(wù)器組成集群刀片:E9000 CH121 V3 E9000 CH140 V3機(jī)架: RH2288H V3高密: X6800 XH622 V3SMP計(jì)算節(jié)點(diǎn)(胖節(jié)點(diǎn))4路或者8路服務(wù)器,內(nèi)存容量大刀片:E9000 CH242 V3機(jī)架: RH5885H V3 RH5885 V3
14、RH8100 V3高密:無GPGPU/PHI加速計(jì)算節(jié)點(diǎn)通過協(xié)處理器GPGPU/PHI加速運(yùn)算,一般要求有1GPGPU/node、2GPGPU/node、4GPGPU/node刀片:E9000 CH220 V3 (2插槽)機(jī)架:RH2288H V3 (2插槽) RH5885H V3 (4插槽)高密:X6800 XH622 V3MPI計(jì)算瘦節(jié)點(diǎn)選擇策略根據(jù)標(biāo)書要求選擇對(duì)應(yīng)形態(tài)服務(wù)器開始客戶標(biāo)書是否明確了服務(wù)器形態(tài)Yes客戶標(biāo)書有超高密度部署要求No刀片服務(wù)器機(jī)架服務(wù)器E9000CH121 V3E9000CH140 V3RH2288H V3客戶標(biāo)書有IB組網(wǎng)要求,并指定需要框式IB交換機(jī)NoNoY
15、es超高密度部署選擇Yes要求刀片要求2U機(jī)架648節(jié)點(diǎn)規(guī)模以下集群使用框式交換機(jī)時(shí),框式交換機(jī)直連節(jié)點(diǎn)成本最佳由于E9000已經(jīng)集成了接入層IB/以太交換板,相對(duì)機(jī)架服務(wù)器部署的優(yōu)點(diǎn):a.接入層交換機(jī)成本相對(duì)低b.自研網(wǎng)卡成本較低c.背板連接替代了接入層線纜,維護(hù)方便d.背板替代了接入線纜,成本更低如果客戶對(duì)線纜數(shù)目敏感,或一線具備一定售價(jià)控制.(提高毛利)能力時(shí)優(yōu)選刀片部分標(biāo)書直接明確刀片/機(jī)架/高密,部分標(biāo)書以集成密度方式隱性要求高密服務(wù)器X6800XH622 V3刀片服務(wù)器客戶對(duì)刀片有傾向性或公司對(duì)刀片銷售有傾向性Yes售價(jià)可控高毛利No如果客戶希望每柜部署超過48計(jì)算節(jié)點(diǎn),就只能選擇
16、高密刀片MPI計(jì)算瘦節(jié)點(diǎn)選擇策略型號(hào)優(yōu)勢(shì)劣勢(shì)/注意事項(xiàng)RH2288H V3客戶要求使用框式IB交換機(jī)時(shí)組網(wǎng)方案比刀片佳,成本低,通信時(shí)延低。集成密度最差標(biāo)準(zhǔn)兩級(jí)IB交換組網(wǎng)時(shí)線纜多,成本高,部署維護(hù)困難。X6800 XH622 V3(首選)集成密度比2U機(jī)架服務(wù)器高一倍,單機(jī)架最多部署40個(gè)計(jì)算節(jié)點(diǎn)使用框式IB交換機(jī)時(shí)組網(wǎng)方案比刀片佳整體報(bào)價(jià)最佳外購(gòu)件(IB卡、線纜、機(jī)架交換機(jī))比刀片多,在小規(guī)模(135W CPU,本地只支持1個(gè)硬盤,可能無法滿足部分標(biāo)書要求MPI計(jì)算瘦節(jié)點(diǎn)-部件選擇策略部件RH2288H V3X6800 XH622 V3E9000 CH121 V3E9000 CH140 V
17、3補(bǔ)充說明CPUE5-2697 V3 (14c, 2.6GHz)E5-2680 V3 (12c, 2.0GHz)E5-2683 V3 (14c, 2.0GHz,特殊場(chǎng)景)同左同左E5-2680 V3 (12c, 2.0GHz)E5-2683 V3 (14c, 2.0GHz,特殊場(chǎng)景)【E5-2697 V3為145W,不支持】E5-2683 V3在HPL測(cè)試效率超高,客戶對(duì)效率值有需求時(shí)選用內(nèi)存如果標(biāo)書明確容量/頻率要求,按標(biāo)書要求配置。如果沒有,則按最低4GB/core計(jì)算總?cè)萘浚ㄍ扑]每臺(tái)服務(wù)器128GB),優(yōu)選16GB DIMM條;根據(jù)成本考慮選擇不同頻率DIMM條。同左同左同左標(biāo)書中一般都
18、會(huì)明確內(nèi)存容量部分標(biāo)書還會(huì)明確內(nèi)存頻率要求本地存儲(chǔ)按標(biāo)書要求選擇本地存儲(chǔ)HDD/SSD/SATADOM/SD卡即可同左同左同左(CH140 V3沒有SATADOM,只有SD卡)客戶標(biāo)書一般都會(huì)明確本地存儲(chǔ)類型:HDD/SSD/ SATADOM/SD卡,以及容量,數(shù)目(一般1個(gè),少數(shù)標(biāo)書要兩個(gè))GE網(wǎng)卡一塊2口GE intel i350網(wǎng)卡同左一塊4口MZ110一塊4口MZ111典型集群?jiǎn)喂?jié)點(diǎn)僅需單GE口10GE網(wǎng)卡一塊2口10GE intel 82599網(wǎng)卡同左一塊2口MZ510一塊4口MZ512典型集群?jiǎn)喂?jié)點(diǎn)僅需單10GE口IB卡一塊單口QDR或FDR接口卡同左一塊2口MZ610或MZ611
19、一塊2口MZ612或MZ613典型集群?jiǎn)喂?jié)點(diǎn)僅需單IB口SMP計(jì)算胖節(jié)點(diǎn)選擇策略開始客戶標(biāo)書要求內(nèi)存768GB客戶標(biāo)書要求8P胖節(jié)點(diǎn)NoRH8100 V3客戶標(biāo)書要求胖節(jié)點(diǎn)必須是刀片NoNoYes瘦節(jié)點(diǎn)是刀片形態(tài)(有空余機(jī)框槽位),且要求內(nèi)存1.5TB內(nèi)存容量2.16GB成本最佳,采用16GB時(shí),5885 V3只支持到768GBYesE9000CH242 V3YesE9000CH242 V3RH5885 V3兩個(gè)考慮點(diǎn):1.瘦節(jié)點(diǎn)是刀片,胖節(jié)點(diǎn)整合到機(jī)框整合度高2.16GB成本最佳,采用16GB時(shí),CH242 V3只支持到512GBSMP計(jì)算胖節(jié)點(diǎn)選擇策略型號(hào)優(yōu)勢(shì)劣勢(shì)/注意事項(xiàng)RH8100 V
20、3(8P部署)支持8P SMP,8P時(shí)專用RH5885 V3(低內(nèi)存部署)機(jī)框基礎(chǔ)報(bào)價(jià)低僅最大支持48內(nèi)存DIMM,在內(nèi)存容量要求1.5TB時(shí)不滿足,在內(nèi)存容量768GB時(shí)采用32GB內(nèi)存條成本高。RH5885H V3(高內(nèi)存部署)支持96內(nèi)存DIMM,可支持1.5TB的部署,在內(nèi)存容量768GB-1.5TB區(qū)間時(shí)刻采用性價(jià)比最高的16GB內(nèi)存條。機(jī)框成本比RH5885 V3略高E9000 CH242 V3(刀片部署)刀片形態(tài),集成度高僅最大支持32內(nèi)存DIMM,在內(nèi)容容量要求1TB時(shí)不滿足,在內(nèi)存容量512GB時(shí)采用32GB內(nèi)存條成本高SMP計(jì)算胖節(jié)點(diǎn)-部件選擇策略部件RH8100 V3RH
21、5885 V3RH5885H V3E9000 CH242 V3補(bǔ)充說明CPU如果標(biāo)書有明確要求,按標(biāo)書明確CPU型號(hào)選擇如果標(biāo)書未有明確要求,優(yōu)選推薦以下CPU:E7-8850 V2 (12c, 2.3GHz)E7-8870 V2 (15c, 2.3GHz)如果標(biāo)書有明確要求,按標(biāo)書明確CPU型號(hào)選擇如果標(biāo)書未有明確要求,優(yōu)選推薦以下CPU:E7-4830 V2 (10c, 2.2GHz)E7-4850 V2 (12c, 2.3GHz)E7-4870 V2 (15c, 2.3GHz)同左同左不同客戶/應(yīng)用在標(biāo)書中對(duì)胖節(jié)點(diǎn)CPU的要求內(nèi)存如果標(biāo)書明確容量/頻率要求,按標(biāo)書要求配置。優(yōu)選16GB
22、DIMM條;根據(jù)成本考慮選擇不同頻率DIMM條。同左同左同左標(biāo)書中常見胖節(jié)點(diǎn)內(nèi)存容量要求:128GB/256GB/512GB/1TB,現(xiàn)在還有6TB的需求本地存儲(chǔ)按標(biāo)書要求選擇本地存儲(chǔ)即可同左同左同左客戶標(biāo)書一般都會(huì)明確本地存儲(chǔ)類型,以及容量,數(shù)目(一般標(biāo)書要求4個(gè)或者6個(gè))GE網(wǎng)卡一塊2口GE intel i350網(wǎng)卡同左同左一塊4口MZ110典型集群?jiǎn)喂?jié)點(diǎn)僅需單GE口10GE網(wǎng)卡一塊2口10GE intel 82599網(wǎng)卡同左同左一塊2口MZ510典型集群?jiǎn)喂?jié)點(diǎn)僅需單10GE口IB卡一塊單口QDR/FDR接口卡同左同左一塊2口MZ610/MZ611典型集群?jiǎn)喂?jié)點(diǎn)僅需單IB口加速計(jì)算節(jié)點(diǎn)選擇
23、策略開始客戶標(biāo)書要求每節(jié)點(diǎn)支持4 GPGPU/PHINoRH5885H V3客戶選擇傾向于集成刀片NoYesRH2288H V3兩個(gè)考慮點(diǎn):1.客戶指定刀片形態(tài)2.客戶未指定刀片形態(tài),但是瘦節(jié)點(diǎn)為刀片,一線傾向于高整合度方案(我司優(yōu)勢(shì))YesE9000CH220 V3基礎(chǔ)成本高,非標(biāo)書硬性要求4 GPGPU/PHI不要選擇一般項(xiàng)目要求每節(jié)點(diǎn)部署2 GPGPU/PHI高功耗CPU和超高功耗GPGPU/PHI同時(shí)部署時(shí),建議選擇高密或機(jī)架No加速節(jié)點(diǎn)數(shù)目=4臺(tái)X6800XH622 V3Yes加速計(jì)算節(jié)點(diǎn)選擇策略型號(hào)優(yōu)勢(shì)劣勢(shì)/注意事項(xiàng)5885H V3(4 GPGPU/PHI部署)支持最多4個(gè)GPGP
24、U/PHI成本高4U機(jī)框,集成度低RH2288H V3(4臺(tái)時(shí)首選)綜合成本和散熱能力佳=4臺(tái)時(shí)首選)綜合成本和散熱能力最佳最多只支持2個(gè)GPGPU/PHIE9000 CH220 V3(刀片選擇)刀片形態(tài),集成度高最多只支持2個(gè)GPGPU/PHI加速計(jì)算節(jié)點(diǎn)-部件選擇策略部件RH5885H V3RH2288H V3E9000 CH220 V3補(bǔ)充說明CPU優(yōu)選E7-4830 V2 (10c, 2.2GHz)同瘦節(jié)點(diǎn)配置,優(yōu)選:E5-2697 V3 (14c, 2.6GHz)E5-2680 V3 (12c, 2.0GHz)E5-2683 V3 (14c, 2.0GHz,特殊場(chǎng)景)同左不同客戶/應(yīng)
25、用在標(biāo)書中對(duì)胖節(jié)點(diǎn)CPU的要求內(nèi)存如果標(biāo)書明確容量/頻率要求,按標(biāo)書要求配置。同左同左標(biāo)書中常見要求加速節(jié)點(diǎn)為64GB本地存儲(chǔ)按標(biāo)書要求選擇本地存儲(chǔ)即可同左同左客戶標(biāo)書一般都會(huì)明確本地存儲(chǔ)類型,以及容量,數(shù)目(一般標(biāo)書要求2個(gè))GE網(wǎng)卡一塊2口GE intel i350網(wǎng)卡同左一塊4口MZ110典型集群?jiǎn)喂?jié)點(diǎn)僅需單GE口10GE網(wǎng)卡一塊2口10GE intel 82599網(wǎng)卡同左一塊2口MZ510典型集群?jiǎn)喂?jié)點(diǎn)僅需單10GE口IB卡一塊單口QDR/FDR接口卡同左一塊2口MZ610/MZ611典型集群?jiǎn)喂?jié)點(diǎn)僅需單IB口計(jì)算節(jié)點(diǎn)Review類型特點(diǎn)應(yīng)用場(chǎng)景MPI計(jì)算節(jié)點(diǎn)(瘦節(jié)點(diǎn))一般是2路服務(wù)器
26、組成集群MPI集群計(jì)算,適應(yīng)于絕大多數(shù)HPC應(yīng)用,一般項(xiàng)目中MPI節(jié)點(diǎn)配置數(shù)量最多SMP計(jì)算節(jié)點(diǎn)(胖節(jié)點(diǎn))4路或者8路服務(wù)器,內(nèi)存容量大適用于對(duì)單節(jié)點(diǎn)有大內(nèi)存需求的應(yīng)用,一般內(nèi)存配置在512G以上GPU計(jì)算節(jié)點(diǎn)通過協(xié)處理器GPU/PHI加速運(yùn)算,一般要求有1GPU/node、2GPU/node、4GPU/node一些HPC應(yīng)用支持GPU計(jì)算加速,比如生命科學(xué)和石油勘探領(lǐng)域的部分軟件,推薦配置Nvidia Tesla系列的GPU進(jìn)行計(jì)算加速計(jì)算節(jié)點(diǎn)包括: MPI節(jié)點(diǎn) 胖節(jié)點(diǎn) GPU節(jié)點(diǎn)存儲(chǔ)解決方案PCLAN服務(wù)器NFS ServerPCRH2288NAS之NFSNAS+SANOceanStor
27、V3NAS之統(tǒng)一存儲(chǔ)并行存儲(chǔ)之Lustre方案并行存儲(chǔ)之Oceanstor9000存儲(chǔ)解決方案類型特點(diǎn)應(yīng)用場(chǎng)景NASNFS采用存儲(chǔ)型服務(wù)器部署NFS Server,容量較小、性能較低。比如RH2288 V3部署NFS Server。對(duì)性能沒有要求,一般適用于HPC系統(tǒng)預(yù)算只有幾十萬RMB的小項(xiàng)目,甚至可以把NFS Server部署于管理節(jié)點(diǎn)上。統(tǒng)一存儲(chǔ)直接采用NAS或者統(tǒng)一存儲(chǔ)提供服務(wù)器,支持NFS和CIFS,能提供較大的容量和性能。比如OceanStor V3統(tǒng)一存儲(chǔ)。一般適用于HPC系統(tǒng)預(yù)算200萬RMB以下且不考慮擴(kuò)展的系統(tǒng);性能要求小于2GB/s;適用于有windows客戶端訪問存儲(chǔ)的
28、系統(tǒng);并行存儲(chǔ)Lustre存儲(chǔ)通過RH2288和OceanStor V3 FC SAN搭建,部署Intel Lustre文件系統(tǒng)。性能高、擴(kuò)展性好,原生系統(tǒng)只支持linux客戶端。一般適用于HPC系統(tǒng)預(yù)算200萬RMB以上的項(xiàng)目;性能要求在2GB/s20GB/s;集群中訪問存儲(chǔ)的節(jié)點(diǎn)全部是linux系統(tǒng);Oceanstor 9000軟硬件一體化專用存儲(chǔ),支持linux和windows訪問,擴(kuò)展性好。要求windows客戶端訪問的場(chǎng)景,優(yōu)先考慮9000;xyratex軟硬件一體化專用存儲(chǔ),業(yè)界最高性能超大項(xiàng)目(20GB/s以上),優(yōu)先考慮xyratex存儲(chǔ)解決方案產(chǎn)品選型和策略perferman
29、ce超低端 2GB/s 20GB/s V3 Lustre Oceanstor9000Oceanstor9000 xyratexOceanStor V3RH2288 V3 NFS serverN2000(windows) 超低端方案PCLAN服務(wù)器N2000NFSCIFSPC方案適用場(chǎng)景配置N2000適用于windows客戶端單控,支持GE或者10GE接入,最大裸容量48TBNFS Server適用于linux客戶端選擇存儲(chǔ)型服務(wù)器RH2288 V3或者CH222 V3,部署linux NFS Server。磁盤根據(jù)容量需求配置,CPU推薦中低端主流型號(hào),內(nèi)存配置推薦32G或者64G,網(wǎng)絡(luò)根據(jù)整
30、體組網(wǎng)進(jìn)行選型,一般是GE或者10GE。方案1N2000方案2NFS ServerOceanstor V3統(tǒng)一存儲(chǔ)方案NAS+SANOceanStor V3由底層存儲(chǔ)資源池直接提供SAN與NAS服務(wù),數(shù)據(jù)庫和文件共享業(yè)務(wù)同樣高效塊和文件一體化,無需額外購(gòu)買文件引擎,購(gòu)置成本降低15%,能耗下降10GE交換機(jī)(客戶提供)管理服務(wù)器應(yīng)用服務(wù)器Lustre存儲(chǔ)方案Lustre存儲(chǔ)方案,根據(jù)Oceanstor V3存儲(chǔ)的不同檔次,按性能可劃分為低端、中低端、中高端、高端和擴(kuò)展五個(gè)場(chǎng)景,下面將分別描述每一個(gè)場(chǎng)景的方案。Lustre方案分類低端場(chǎng)景中低端場(chǎng)景中高端場(chǎng)景高端場(chǎng)景擴(kuò)展場(chǎng)景性能寫帶寬1.5GB/
31、s2.2GB/s3GB/s7GB/s20GB/s讀帶寬2.5GB/S4.8GB/s7GB/s7GB/s20GB/sLustre方案低端場(chǎng)景1臺(tái)Lustre管理服務(wù)器,配置RH2288 V3(2*E5-2603 V3, 2*16G MEM,2*300G SAS,板載GE )2臺(tái)MDS節(jié)點(diǎn),配置RH2288 V3 (2*E5-2620v3, 4*16G MEM, 2*300G SAS, 1*QDR/FDR IB卡, 1*雙口8G FC HBA)2臺(tái)OSS節(jié)點(diǎn),配置RH2288 V3 (2*E5-2620v3, 4*16G MEM, 2*300G SAS, 1*QDR/FDR IB卡, 1*雙口8G
32、 FC HBA)1臺(tái)5300 V3,2張4端口8G FC卡,每控32G cache;至少4塊15K轉(zhuǎn) 600G SAS硬盤,最多一般24塊600G SAS硬盤夠用,全部做RAID10,用于MGT(10G)和MDT;建議至少48塊 24TB的NLSAS硬盤服務(wù)器和FC SAN采用雙控8G FC直連,不需FC交換機(jī)部署Intel商用版Lustre配置性能IOR最大寫帶寬1.5GB/sIOR最大讀帶寬2.5GB/s5300 V3MDS PairOSS PairINFINIBAND8G FCComputing nodes組網(wǎng)圖Lustre manage ETH注意:1、整體性能是由存儲(chǔ)控制器性能評(píng)估得
33、到;2、存儲(chǔ)單硬盤性能按寫40MB/s,讀50MB/s評(píng)估。 當(dāng)前數(shù)據(jù)僅作參考,后續(xù)實(shí)測(cè)后再更新數(shù)據(jù)!Lustre方案中低端場(chǎng)景1臺(tái)Lustre管理服務(wù)器,配置RH2288 V3(2*E5-2603 V3, 2*16G MEM,2*300G SAS,板載GE )2臺(tái)MDS節(jié)點(diǎn),配置RH2288 V3 (2*E5-2620v3, 4*16G MEM, 2*300G SAS, 1*QDR/FDR IB卡, 1*雙口8G FC HBA)2臺(tái)OSS節(jié)點(diǎn),配置RH2288 V3 (2*E5-2620v3, 4*16G MEM, 2*300G SAS, 1*QDR/FDR IB卡, 1*雙口16G FC
34、HBA)1臺(tái)5500V3,配置2張8G FC卡,2張16G FC卡,每控制器64G cache;至少4塊15K轉(zhuǎn) 600G SAS硬盤,最多一般24塊600G SAS硬盤夠用,全部做RAID10,用于MGT(10G)和MDT;建議至少96塊 24TB的NLSAS硬盤服務(wù)器和FC SAN采用雙控8G/16G FC直連,不需FC交換機(jī)部署Intel商用版Lustre配置性能IOR最大寫帶寬2.2GB/sIOR最大讀帶寬4.8GB/s組網(wǎng)圖5500 V3MDS PairOSS PairINFINIBAND8G FCComputing nodesLustre manage ETH16G FC注意:1、
35、整體性能是由存儲(chǔ)控制器性能評(píng)估得到;2、存儲(chǔ)單硬盤性能按寫40MB/s,讀50MB/s評(píng)估。 當(dāng)前數(shù)據(jù)僅作參考,后續(xù)實(shí)測(cè)后再更新數(shù)據(jù)!Lustre方案中高端場(chǎng)景1臺(tái)Lustre管理服務(wù)器,配置RH2288 V3(2*E5-2603 V3, 2*16G MEM,2*300G SAS,板載GE )2臺(tái)MDS節(jié)點(diǎn),配置RH2288 V3 (2*E5-2620v3, 4*16G MEM, 2*300G SAS, 1*QDR/FDR IB卡, 1*雙口8G FC HBA)2臺(tái)OSS節(jié)點(diǎn),配置RH2288 V3 (2*E5-2620v3, 4*16G MEM, 2*300G SAS, 1*QDR/FDR
36、IB卡, 2*雙口16G FC HBA)1臺(tái)5600V3,配置2張8G FC卡,4張16G FC卡,每控制器64G cache;至少4塊15K轉(zhuǎn) 600G SAS硬盤,最多一般24塊600G SAS硬盤夠用,全部做RAID10,用于MGT(10G)和MDT;建議至少140塊 24TB的NLSAS硬盤服務(wù)器和FC SAN采用雙控8G/16G FC直連,不需FC交換機(jī)部署Intel商用版Lustre配置性能IOR最大寫帶寬3GB/sIOR最大讀帶寬7GB/s注意:1、整體性能是由存儲(chǔ)控制器性能評(píng)估得到;2、存儲(chǔ)單硬盤性能按寫40MB/s,讀50MB/s評(píng)估。 當(dāng)前數(shù)據(jù)僅作參考,后續(xù)實(shí)測(cè)后再更新數(shù)據(jù)
37、!組網(wǎng)圖5600 V3MDS PairOSS PairINFINIBAND8G FCComputing nodesLustre manage ETH16G FCLustre方案高端場(chǎng)景1臺(tái)Lustre管理服務(wù)器,配置RH2288 V3(2*E5-2603 V3, 2*16G MEM,2*300G SAS,板載GE )2臺(tái)MDS節(jié)點(diǎn),配置RH2288 V3 (2*E5-2620v3, 4*16G MEM, 2*300G SAS, 1*FDR IB卡, 1*雙口8G FC HBA)2臺(tái)OSS節(jié)點(diǎn),配置RH2288 V3 (2*E5-2620v3, 4*16G MEM, 2*300G SAS, 1*
38、FDR IB卡, 2*雙口16G FC HBA)1臺(tái)5800V3,配置2張8G FC卡,4張16G FC卡,每控制器128G cache;配置24塊3.5寸15K RPM 600G SAS硬盤,全部做RAID10,用于MGT(10G)和MDT;建議至少175塊(225塊對(duì)應(yīng)9GB) 24TB的NLSAS硬盤服務(wù)器和FC SAN采用雙控8G/16G FC直連,不需FC交換機(jī)部署Intel商用版Lustre配置性能IOR最大寫帶寬(可交付7GB/s,優(yōu)化目標(biāo)9GB/s)IOR最大讀帶寬(可交付7GB/s,優(yōu)化目標(biāo)9GB/s)注意:1、整體性能是由存儲(chǔ)控制器性能評(píng)估得到;2、存儲(chǔ)單硬盤性能按寫40M
39、B/s,讀50MB/s評(píng)估。 當(dāng)前數(shù)據(jù)僅作參考,后續(xù)實(shí)測(cè)后再更新數(shù)據(jù)!組網(wǎng)圖5800 V3MDS PairOSS PairINFINIBAND8G FCComputing nodesLustre manage ETH16G FCLustre方案擴(kuò)展場(chǎng)景1臺(tái)Lustre管理服務(wù)器,配置RH2288 V3(2*E5-2603 V3, 2*16G MEM,2*300G SAS,板載GE )2臺(tái)MDS節(jié)點(diǎn),配置RH2288 V3 (2*E5-2620v3, 4*16G MEM, 2*300G SAS, 1*FDR IB卡, 1*雙口8G FC HBA)6臺(tái)OSS節(jié)點(diǎn),配置RH2288 V3 (2*E5
40、-2620v3, 4*16G MEM, 2*300G SAS, 1*FDR IB卡, 2*雙口16G FC HBA)1臺(tái)5300V3,2張8G FC卡,每控32G cache,25塊15K RPM 600G SAS硬盤,全部做RAID10,用于MGT(10G)和MDT;3臺(tái)5800V3,每臺(tái)存儲(chǔ)配置4張16G FC卡,每控制器128G cache;每臺(tái)存儲(chǔ)配置175塊 24TB的NLSAS硬盤服務(wù)器和FC SAN采用雙控8G/16G FC直連,不需FC交換機(jī)部署Intel商用版Lustre配置性能IOR最大寫帶寬20GB/sIOR最大讀帶寬20GB/s5300 V35800 V3MDS Pai
41、rOSS PairOSS PairOSS PairINFINIBAND8G FCComputing nodesLustre manage ETH16G FC16G FC16G FC5800 V35800 V3注意:1、整體性能是由存儲(chǔ)控制器性能評(píng)估得到; 2、存儲(chǔ)單硬盤性能按寫40MB/s,讀50MB/s評(píng)估。 當(dāng)前數(shù)據(jù)僅作參考,后續(xù)實(shí)測(cè)后再更新數(shù)據(jù)!OceanStor 9000組網(wǎng)類型內(nèi)部組網(wǎng)由部署完成,客戶無需關(guān)注10GE交換機(jī)、IB交換機(jī)或千兆交換機(jī)10GE交換機(jī)、IB交換機(jī)或千兆交換機(jī)(客戶提供)GE交換機(jī)管理服務(wù)器應(yīng)用服務(wù)器OceanStor 9000前后端10GE組網(wǎng)前端千兆后端萬
42、兆組網(wǎng)前端10GE,后端IB組網(wǎng)前后端IB組網(wǎng)前后端千兆組網(wǎng)(不推薦)注: 除前后端GE組網(wǎng)不單獨(dú)配置GE管理交 換機(jī),其他組網(wǎng)都需單獨(dú)配置一臺(tái)GE管理交換機(jī)2. 除IB交換機(jī)外,其他軟硬件均為自研I Node SAS盤節(jié)點(diǎn)僅支持前后端10GE或前端GE后端10GE組網(wǎng),I Node SATA盤節(jié)點(diǎn)僅支持前后端GE組網(wǎng)OceanStor 9000存儲(chǔ)系統(tǒng)性能交底類型并發(fā)數(shù)(NFS/CIFS)帶寬(MB/s)單節(jié)點(diǎn)支持的文件數(shù)P 節(jié)點(diǎn)(1*SSD+24*SAS)900/2000HPC場(chǎng)景:純讀/純寫帶寬:600 (IO塊1M)純讀/純寫帶寬:500 (IO塊64k)媒資場(chǎng)景(CIFS協(xié)議):極限
43、讀/寫帶寬:500 穩(wěn)定讀/寫帶寬:4005000萬(48G內(nèi)存)1億 (64G內(nèi)存)C 節(jié)點(diǎn)(1*SSD+35*SATA)900/2000宣傳值:800MB/sHPC場(chǎng)景:純讀/純寫帶寬:600 (IO塊1M)純讀/純寫帶寬:500 (IO塊64k)媒資場(chǎng)景(CIFS協(xié)議):極限讀/寫帶寬:500 穩(wěn)定讀/寫帶寬:4005000萬(48G內(nèi)存)1億 (64G內(nèi)存)M 節(jié)點(diǎn)(12*SATA)900/2000HPC場(chǎng)景:純讀/純寫帶寬:200MB/S媒資場(chǎng)景下(CIFS協(xié)議):極限純讀/純寫帶寬:200MB/s穩(wěn)定讀/寫帶寬:200MB/s5000萬(32G內(nèi)存)1億 (48G內(nèi)存)2014年7
44、月更新網(wǎng)絡(luò)類型特點(diǎn)硬件管理網(wǎng)BMC硬件管理網(wǎng)絡(luò),一般是百兆或者GE網(wǎng)絡(luò)。通過帶外管理,包括硬件上下電、硬件設(shè)備監(jiān)控等。一般硬件管理網(wǎng)和系統(tǒng)管理網(wǎng)連通,因?yàn)榧汗芾碥浖碗p機(jī)HA軟件需要與BMC通信。系統(tǒng)管理網(wǎng)集群管理軟件所進(jìn)行的系統(tǒng)管理,一般是GE網(wǎng)絡(luò)。高速計(jì)算網(wǎng)集群節(jié)點(diǎn)間計(jì)算時(shí)通信的網(wǎng)絡(luò),一般要求低延遲高帶寬,infiniband最常見,部分場(chǎng)景10GE和40GE適用。數(shù)據(jù)網(wǎng)計(jì)算節(jié)點(diǎn)訪問存儲(chǔ)的網(wǎng)絡(luò),通常情況下,這個(gè)與計(jì)算網(wǎng)絡(luò)合并共用鏈路。網(wǎng)絡(luò)系統(tǒng)可分為硬件管理網(wǎng)、系統(tǒng)管理網(wǎng)、高速計(jì)算網(wǎng)、數(shù)據(jù)網(wǎng)4種類型,每種網(wǎng)絡(luò)的特點(diǎn)描述如下:計(jì)算網(wǎng)絡(luò)&數(shù)據(jù)網(wǎng)絡(luò)計(jì)算網(wǎng)絡(luò)用于不同節(jié)點(diǎn)進(jìn)程間的數(shù)據(jù)交互,通常通過M
45、PI實(shí)現(xiàn),部分?jǐn)?shù)據(jù)交互較頻繁的HPC應(yīng)用,需要高速低延時(shí)的計(jì)算網(wǎng)絡(luò),常見的計(jì)算網(wǎng)絡(luò)類型包括IB、10GE、40GE。數(shù)據(jù)網(wǎng)絡(luò)用于節(jié)點(diǎn)訪問文件系統(tǒng),常見的數(shù)據(jù)網(wǎng)絡(luò)包括IB、10GE、40GE,大部分情況下,數(shù)據(jù)網(wǎng)絡(luò)與計(jì)算網(wǎng)絡(luò)合一,部分對(duì)可靠性和性能要求較高的集群也會(huì)將數(shù)據(jù)網(wǎng)絡(luò)獨(dú)立出來使用單獨(dú)的網(wǎng)絡(luò)設(shè)備。p1p0Compute Nodesp1p0Compute NodesCompute Network Core SWData Network Core SWBlade Chassis NData SWCompute SWBlade Chassis 1Data SWCompute SWp1p0Mana
46、gement Nodep1p0Management Nodep1p0Compute NodesNASStorage Nodesp1p0Compute Nodesp1p0Compute NodesCompute Network Core SWBlade Chassis NCompute SWBlade Chassis 1Compute SWp0Management Nodep0Management Nodep0Compute NodesNASStorage Nodes計(jì)算網(wǎng)絡(luò)是Infiniband客戶是否是阿拉伯國(guó)家選擇Intel 12X00系列IB交換機(jī)是是是否指定FDR否是否計(jì)算節(jié)點(diǎn)為刀片M
47、ellanox IB交換機(jī)是否要求支持VPI是否是否與Mellanox設(shè)備連接是否是否計(jì)算網(wǎng)絡(luò)是10GE10GE交換機(jī)否是計(jì)算網(wǎng)絡(luò)是40GE40GE交換機(jī)否是IB路由算法MINHOP algorithm最短路徑算法UPDN algorithm基于Min Hop算法,路由需要遵循rank規(guī)則FatTree algorithm該算法需要基于Fat Tree組網(wǎng),路由遵循rank規(guī)則Fat Tree組網(wǎng)結(jié)構(gòu)特點(diǎn)連接到同一個(gè)遠(yuǎn)端Switch的端口叫端口組,同一Rank的Switch必須有相同的“UP端口組”,根rank沒有UP端口組;同一Rank的Switch必須有相同的“Down端口組”,Leaf
48、Switch除外同一Rank的每個(gè)UP端口組中端口個(gè)數(shù)相同;同一Rank的每個(gè)Down端口組中端口個(gè)數(shù)相同所有終端節(jié)點(diǎn)的HCA卡都在同一Rank上二叉樹胖二叉樹胖樹Rank0Rank1Rank2Rank3L1L2L3Nodes機(jī)架IB組網(wǎng)方案12334353661181181181181181181181181181181181181Spine Switch18 x 36-port SwitchLeaf Switch36 x 36-port SwitchNodes648 Nodes1241241241241241241Spine Switch12 x 36-port SwitchLeaf Sw
49、itch36 x 36-port SwitchNodes864 Nodes36 Nodes108Nodes648 Nodes864 Nodes(阻塞)IS5100SX6506IS5600SX653612800-360(UHD)Non-blocking, Balanced,Fat TreeNon-blocking, Balanced, Fat TreeBalanced, Fat TreeBlocking Ratio 2:1推薦推薦推薦推薦刀片IB組網(wǎng)方案1Spine Switch16 x 36-port SwitchLeaf Switch36 x CX611 16/18-port SwitchN
50、odes576 Nodes1Spine Switch8 x 36-port SwitchLeaf Switch36 x CX611 16/18-port SwitchNodes576 Nodes16Nodes32Nodes576 Nodes576 Nodes(阻塞)Non-blockingNon-Blocking , Balanced,Fat treeBlocking ratio 2:1BalancedFat Tree161696Nodes16161616556Non-blocking, Balanced, Fat Tree161616161616161616161616注意:刀片infini
51、band組網(wǎng)方案外置交換機(jī)必須使用Mellanox IB交換機(jī),Intel IB交換機(jī)與E9000 CX611交換板不兼容三層IB組網(wǎng)方案- Fat Tree機(jī)架方案(11664)刀片方案(10368)11118118118118Spine Switch18 x 648-port SwitchLeaf Switch648 x CX611 36-port SwitchNodes 11664 Nodes11Spine Switch16 x 648-port SwitchLeaf Switch648 x CX611 16/18-port SwitchNodes 10368 Nodes16161616
52、Non-Blocking , Balanced,Fat treeNon-Blocking , Balanced,Fat tree注意:刀片infiniband組網(wǎng)方案外置交換機(jī)必須使用Mellanox IB交換機(jī),Intel IB交換機(jī)與E9000 CX611交換板不兼容案例解析IB網(wǎng)絡(luò)管理網(wǎng)絡(luò)GPU加速節(jié)點(diǎn)RH2288H V3 *4存儲(chǔ)系統(tǒng)OceanStor 5300V3I/O節(jié)點(diǎn)RH2288H V3 *4安裝并行文件系統(tǒng)lustreIB交換機(jī) * 2兩臺(tái)堆疊為72口CH121V3*16 CH121V3*16CH240*8CH240*7E9000 ChassisE9000 ChassisE9
53、000 ChassisE9000 Chassis管理登陸節(jié)點(diǎn)RH2288H V3 *2胖節(jié)點(diǎn)RH8100V3 FC網(wǎng)絡(luò)管理交換機(jī) S5700IPMI 管理網(wǎng)交換機(jī) S5700軟件軟件組件詳細(xì)描述OSRedhat6.x/CentOS6.x集群管理軟件和作業(yè)調(diào)度軟件CHESS、BCM、PBS pro、platformMPIOpen MPI、MPICH、MPICH2、MVAPICH、MVAPICH2、Intel MPI、platform MPI數(shù)學(xué)庫Gotoblas開發(fā)工具Intel ICS、gcc、PGI并行化應(yīng)用模式應(yīng)用Linux, Windows, Unix操作系統(tǒng)與配置管理 操作系統(tǒng)中間件通
54、訊函數(shù)庫 (MPI, DVSM, PVM, etc) 集群控制與管理 開發(fā)工具編譯器,函數(shù)庫,性能分析與調(diào)試工具 作業(yè)管理批作業(yè)序列與調(diào)度,集群監(jiān)控,系統(tǒng)擴(kuò)展工具高性能計(jì)算相關(guān)術(shù)語常用術(shù)語參考描述作業(yè)調(diào)度提供作業(yè)管理、隊(duì)列管理、計(jì)算節(jié)點(diǎn)管理、調(diào)度管理等多個(gè)特性提供個(gè)性化、通用化、命令行、模板等多種作業(yè)提交方式支持GPGPU 作業(yè)調(diào)度,可定制常用軟件作業(yè)提交界面支持人工干預(yù)作業(yè)優(yōu)先級(jí)、重新運(yùn)行作業(yè)等多種實(shí)用功能集群監(jiān)控提供集群物理視圖,包括機(jī)架、機(jī)柜、服務(wù)器等設(shè)備狀態(tài)提供圖形化界面展示整體集群或單個(gè)節(jié)點(diǎn)的運(yùn)行狀況提供CPU、內(nèi)存、網(wǎng)絡(luò)、硬盤等性能指標(biāo)監(jiān)控,并支持GPGPU 和IB 網(wǎng)絡(luò)監(jiān)控集群管
55、理提供集群節(jié)點(diǎn)管理、集群賬戶管理、文件管理、并行命令、IPMI 管理等多個(gè)特性支持用戶數(shù)據(jù)安全隔離,支持針對(duì)多個(gè)集群節(jié)點(diǎn)進(jìn)行批量操作,支持批量上電下電操作可實(shí)現(xiàn)集群操作系統(tǒng)的一鍵式批量部署能耗管理支持預(yù)先設(shè)置節(jié)能策略,做自動(dòng)節(jié)能處理高性能計(jì)算相關(guān)術(shù)語常用術(shù)語參考描述統(tǒng)計(jì)分析提供集群報(bào)表的產(chǎn)生和導(dǎo)出功能,可滿足用戶根據(jù)不同的需求進(jìn)行靈活的統(tǒng)計(jì)分析根據(jù)客戶的作業(yè)情況提供記帳功能,支持基于用戶、隊(duì)列的作業(yè)計(jì)費(fèi),支持自定義收費(fèi)標(biāo)準(zhǔn)告警管理提供郵件告警和Portal 界面告警機(jī)制支持可配置的硬件告警、系統(tǒng)服務(wù)告警、自定義服務(wù)告警支持告警條件設(shè)置,告警分級(jí),告警閾值配置流程管理提供圖形化流程設(shè)計(jì)工具,降低
56、流程設(shè)計(jì)的難度,提高用戶的工作效率支持拖拽式的流程設(shè)計(jì)和多種復(fù)雜流程,具有完備的流程實(shí)例管理和實(shí)時(shí)流程運(yùn)行圖展示功能故障管理支持管理節(jié)點(diǎn)互備,可在出現(xiàn)故障時(shí)快速恢復(fù)提供集群節(jié)點(diǎn)鏡像創(chuàng)建,刪除,瀏覽等鏡像管理功能支持節(jié)點(diǎn)快照,節(jié)點(diǎn)快速恢復(fù),可使用同一個(gè)鏡像同時(shí)恢復(fù)多臺(tái)主機(jī)支持對(duì)集群節(jié)點(diǎn)定期備份,集群故障時(shí)可快速恢復(fù)集群主要的備選集群軟件排他選型策略:軟件名稱廠家簡(jiǎn)介BCMBright Cluster ManagerBright Computing是一套用戶HPC機(jī)群的部署、測(cè)試、監(jiān)控和管理的完備解決方案。它簡(jiǎn)化了CPU和GPU混合機(jī)群管理工作的復(fù)雜度,使管理員不需要具備非常高深的Linux或者H
57、PC專業(yè)知識(shí)就可以非常容易的管理多套機(jī)群。CHESSClustertech HPC Environment Software Stack聯(lián)科是聯(lián)科自主研發(fā)的集群管理軟件,CHESS包括兩大模塊:CHESS內(nèi)核信息基礎(chǔ)架構(gòu)和CHESS HPC工具集;涵蓋了資源管理、作業(yè)調(diào)度、用戶環(huán)境、并行文件系統(tǒng)、消息傳遞庫、數(shù)學(xué)函數(shù)庫、并行調(diào)試、性能分析等軟件子模塊,為HPCC提供一個(gè)完備、穩(wěn)定、易管理、可定制、可擴(kuò)展的軟件環(huán)境。JHJH Scheduler、JH Portal、JH Analytics、JH License Manager、JH Security、JH JobBroker、JH Deskto
58、p 景行銳創(chuàng)是一套整體解決方案,以圖形工作站集群為中心,建設(shè)一個(gè)三維設(shè)計(jì)和仿真計(jì)算一體化云平臺(tái);將為設(shè)計(jì)人員提供統(tǒng)一、高效、安全、可靠的大型三維模型設(shè)計(jì)平臺(tái)和仿真計(jì)算平臺(tái);并在用戶使用和操作上實(shí)現(xiàn)一體化,用戶和系統(tǒng)管理員只需要通過瀏覽器,登錄一個(gè)統(tǒng)一的門戶,就可以完成所有的EDA設(shè)計(jì)、CAD設(shè)計(jì)、CAE前后處理、EDA/CAE仿真計(jì)算和系統(tǒng)管理維護(hù)工作。FusionCluster是一套用于HPC集群部署、調(diào)度、監(jiān)控和管理的完備解決方案,它具備智能化的調(diào)度策略、強(qiáng)大的管理功能和靈活的可擴(kuò)展性,可幫助用戶最大限度的利用計(jì)算資源,同時(shí)降低成本和加速業(yè)務(wù)執(zhí)行。集群軟件選型策略區(qū)域BCMCHESSJHF
59、usionCluster海外主推(易用性)限于東南業(yè)及A類國(guó)家不能銷售(交付、售后服務(wù))不能銷售(安全紅線)國(guó)內(nèi)命令行操作用戶群主推(低成本)在CAE行業(yè)主推需定制化;低商務(wù);低要求軟件部分 集群管理軟件5.IBM Platform6.Bright Computing BCM 使用范圍:全球使用策略:大型項(xiàng)目或者客戶指定要求的項(xiàng)目維保服務(wù):?報(bào)價(jià)模式:根據(jù)角色按節(jié)點(diǎn)進(jìn)行授權(quán)收費(fèi),其中服務(wù)集成和定制費(fèi)用需要另外收費(fèi)。折扣策略:100%運(yùn)作方式。使用范圍:海外區(qū)域(不含A 類國(guó)家)使用策略:全部項(xiàng)目規(guī)模,在CAE 和石油行業(yè)需要與其他調(diào)度軟件進(jìn)行集成。維保服務(wù):按行業(yè)和節(jié)點(diǎn)數(shù)量提供軟件升級(jí)和Bug
60、 處理支持報(bào)價(jià)模式:根據(jù)行業(yè)按節(jié)點(diǎn)數(shù)量收取license 費(fèi)用(硬件生命周期可用)和維保服務(wù)費(fèi)用(默認(rèn)不含維保,必須至少購(gòu)買1年的維保服務(wù),有1年/3年/5年可選。)折扣策略:海外 85%100%軟件部分 集群管理軟件Kylincluster景行創(chuàng)銳 使用范圍:僅限中國(guó)區(qū)(特殊行業(yè)項(xiàng)目使用)使用策略:僅適合200節(jié)點(diǎn)以下中小型特殊項(xiàng)目,方案配置前請(qǐng)和研發(fā)溝通和備案維保服務(wù):含第一次上門部署實(shí)施和培訓(xùn)服務(wù), 1年5*8的遠(yuǎn)程維保服務(wù)報(bào)價(jià)模式:根據(jù)項(xiàng)目節(jié)點(diǎn)的總數(shù)量,選擇對(duì)應(yīng)階梯的軟件報(bào)價(jià),每個(gè)項(xiàng)目只需購(gòu)買一套折扣策略:100%使用范圍:僅限中國(guó)區(qū)使用策略:僅適合128節(jié)點(diǎn)以下中小型CAE 行業(yè)項(xiàng)目
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 生態(tài)保護(hù)工程生態(tài)環(huán)境監(jiān)測(cè)考核試卷
- 游樂設(shè)施施工中的法律法規(guī)遵守考核試卷
- 珠寶首飾生產(chǎn)與質(zhì)量管理考核試卷
- 碳酸飲料品質(zhì)保證體系考核試卷
- 漁業(yè)機(jī)械設(shè)備研發(fā)考核試卷
- 托兒所服務(wù)的專業(yè)素養(yǎng)與培訓(xùn)考核試卷
- 核能發(fā)電站退役與拆解技術(shù)考核試卷
- 紡織品市場(chǎng)營(yíng)銷與消費(fèi)者行為考核試卷
- 內(nèi)蒙古大學(xué)創(chuàng)業(yè)學(xué)院《能力進(jìn)階英語I》2023-2024學(xué)年第二學(xué)期期末試卷
- 右江民族醫(yī)學(xué)院《西語精讀III》2023-2024學(xué)年第一學(xué)期期末試卷
- 《圖書館管理系統(tǒng)》課件
- 《人民幣國(guó)際化》課件
- 北京市房屋租賃合同自行成交版北京市房屋租賃合同自行成交版
- 2023年高考真題-政治(福建卷) 含答案
- 幼兒園小班認(rèn)識(shí)小動(dòng)物課件
- 標(biāo)本采集錯(cuò)誤應(yīng)急演練
- 阿米巴管理模式培訓(xùn)
- 體育概論(第二版)課件第五章體育手段
- 計(jì)算機(jī)組裝與維護(hù)
- 《04S519小型排水構(gòu)筑物(含隔油池)圖集》
- 【人工智能賦能小學(xué)體育教學(xué)的對(duì)策探究(論文)3800字】
評(píng)論
0/150
提交評(píng)論