AIDC行業國內智算中心建設提速重視產業鏈相關機遇_第1頁
AIDC行業國內智算中心建設提速重視產業鏈相關機遇_第2頁
AIDC行業國內智算中心建設提速重視產業鏈相關機遇_第3頁
AIDC行業國內智算中心建設提速重視產業鏈相關機遇_第4頁
AIDC行業國內智算中心建設提速重視產業鏈相關機遇_第5頁
已閱讀5頁,還剩14頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

國內智算中心建設提速,重視產業鏈相關機遇——AIDC行業專題報告主要觀點AIDC為人工智能訓練和推理提供高效、穩定的計算環境。根據中國智算中心產業發展白皮書(2024年),上游包括土建基礎設施、IT基礎設施;中游包括智算服務供應商、IDC服務商、云服務供應商;下游應用于互聯網、金融、電信、交通等領域。國內AIDC市場規模與算力規模持續提升。根據中國智算中心產業發展白皮書(2024年),AI大模型應用場景不斷豐富,商用進程加快,智算中心市場增長動力逐漸由訓練切換至推理,預計2028年中國智算中心市場規模有望達到2886億元。根據IDC與浪潮信息聯合發布的《2025年中國人工智能計算力發展評估報告》,2025年中國智能算力規模將達到1037.3EFLOPS,預計到2028年將達到2781.9

EFLOPS。AI大模型對網絡提出更高要求。根據中國移動面向AI大模型的智算中心網絡白皮書,智算中心向超大規模組網、超高帶寬、超低時延及抖動、超高穩定性方向發展。AIDC網絡架構打造高性能網絡。按照Marvell分類,智算中心分為計算節點、后端網絡、前端網絡、數據中心間互連。計算節點內部GPU采用銅連接的方式互連(scale-up),并通過NIC/DPU與后端網絡連接,構建大規模算力集群(scale-out);CPU通過NIC/DPU連接到前端以太網網絡。后端網絡采用IB/Erthernet協議,連接集群內智算服務器,以光連接為主。前端網絡采用Erthernet協議,連接智算服務器與數據中心其他設備,負責數據的輸入輸出。國內智算中心建設加速,產業鏈相關環節迎來增長機會。國產大模型加速國產算力建設,

我們看好由國內智算中心建設帶來AIDC運營商、AI服務器、交換機、光模塊、高速銅纜以及溫控等環節的放量機會。風險提示:AI模型與應用發展不及預期;貿易摩擦加劇的風險;算力資本開支不及預期。請務必閱讀報告正文后各項聲明目錄/Contents01020304AIDC產業發展現狀AI大模型對網絡的要求AIDC網絡架構投資建議及風險提示請務必閱讀報告正文后各項聲明?

根據中國智算中心產業發展白皮書(2024年),智算中心提供人工智能應用所需算力服務、數據服務和算法服務的算力基礎設施,融合高性能計算設備、高速網絡以及先進的軟件系統,為人工智能訓練和推理提供高效、穩定的計算環境。請務必閱讀報告正文后各項聲明上游 中游 下游配電AI芯片IT基礎設施AI服務器網絡設備管理系統IDC服務商云服務供應商金融土建基礎設施 智算服務供應商 行業 產業制冷

自動駕駛元宇宙互聯網文娛創作機器人智慧科研電信智慧農林智慧物流交通智慧醫療資料來源:科智咨詢,《中國智算中心產業發展白皮書(2024年)》,甬興證券研究所請務必閱讀報告正文后各項聲明需求推動中國智算中心市場投資規模高速增長。根據中國智算中心產業發展白皮書(2024年),2023年中國智算中心市場規模達879億元,同比增長90%以上。預計2024年國產化芯片產能提升,算力供給瓶頸將逐漸緩解。未來,AI大模型應用場景不斷豐富,商用進程加快,智算中心市場增長動力逐漸由訓練切換至推理,市場進入平穩增長期,預計2028年中國智算中心市場規模有望達到2886億元。從算力規模來看,互聯網及云廠商在智算中心投資建設中占據重要地位。根據中國智算中心產業發展白皮書(2024年),企業主體在智算中心建設中可以提供強大的資金、技術支持和市場應用,以及市場化的管理運營機制,相比于政府等國資平臺更注重效率和效益。中國智能算力發展水平增速高于預期。根據IDC與浪潮信息聯合發布的《2025年中國人工智能計算力發展評估報告》,2025年中國智能算力規模將達到1037.3

EFLOPS,預計到2028年將達到2781.9

EFLOPS。2020-2028年期間,中國智能算力規模的五年年復合增長率預計達到57.09%。2020-2028年中國智算中心市場規模及預測(億元) 中國智算中心項目主體分布(截至2024年8月) 2020-2028年中國智能算力規模及預測(EFLOPS)資料來源:科智咨詢,《中國智算中心產業發展白皮書(2024年)》,《2025年中國人工智能計算力發展評估報告》,甬興證券研究所智算需求具有場景多樣化、高度定制化特征,同時智算中心涵蓋從底層基礎設施到上層應用各個方面,衍生出多元化的智算中心服務體系。根據中國智算中心產業發展白皮書(2024年),智算中心服務包括機房托管服務、算力租賃服務、AI平臺服務、模型定制服務及AI應用服務。機柜托管與算力租賃是當前主流服務模式。根據中國智算中心產業發展白皮書(2024年),產業發展初期,智算中心一般為算力用戶和傳統IDC客戶提供機柜托管服務,算力用戶的服務器由用戶自行解決。算力租賃市場目前處于起步期,投入使用的算力中,用于租賃的部分占比35%左右,其他均為自用。智算算力租賃業務的興起意識由于短期內智算資源供給能力不足,特別是以GPU為代表的AI芯片緊缺,二是自建智算中心投資規模大、運維能力要求較高,算力使用綜合成本高。請務必閱讀報告正文后各項聲明類型 商業模式 介紹 供應方 需求方IaaS基礎設施即服務機房托管服務在傳統數據中心機房托管基礎上,提供更高功耗、配電和網絡定制智算轉型的數據中心服務商、中立的智算中心服務商等頭部云商及AI公司、大型央國企等算力租賃服務以云服務形式租賃智能算力,按照使用時間和規模收費云廠轉型的智算服務商、中立的智算中心服務商等中小型科技公司、IT公司、非連續需求的科研機構等PaaS平臺即服務AI平臺服務提供人工智能應用開發工具和平臺頭部IT公司中小企業和開發者MaaS模型即服務模型定制服務規模定制、精調、部署等AI大模型全流程服務成熟的大模型供應商(具有AI大模型技術能力)中小垂直行業企業SaaS軟件即服務AI應用服務直接應用于企業業務,提供人工智能分析、決策等服務具有AI能力的垂直行業頭部企業小型垂直行業企業資料來源:科智咨詢,《中國智算中心產業發展白皮書(2024年)》,甬興證券研究所請務必閱讀報告正文后各項聲明根據中國移動NICC新型智算中心技術體系白皮書,新型智算中心技術體系由“三層兩域”構成,分別是基礎設施層、智算平臺層、應用使能層、智算運維域和智算運營域。基礎設施層提供計算、存儲、網絡等硬件資源;智算平臺層作為資源管理的核心,提供裸金屬、虛機和容器等多樣化實例以及細粒度的資源池化能力,在此之上搭建算力原生平臺提供應用跨架構遷移能力;應用使能層集成行業主流AI開發框架以供應用開發調用。智算運維域主要負責對底層IaaS資源進行管理維護;智算運營域對接外部客戶,提供計量計費、訪問等界面,對內根據上層任務進行資源編排調度。根據中國移動NICC新型智算中心技術體系白皮書,新型智算中心技術發展將分為集群時期和超級池化時期:集群時期:數據及模型出現巨量化趨勢,千億級的模型已經出現,對智算底座的算力能力和擴展性均提出高要求。超級池化時期:大模型邁進萬億參數量規模,算力、顯存和互聯的需求再次升級,智算中心將真正進入超級池化時代,高速互聯的百卡組成的“超級服務器”可能成為新的設備形態。新型智算中心技術體系架構 新型智算中心技術發展路徑資料來源:《中國移動NICC

新型智算中心技術體系白皮書》,甬興證券研究所請務必閱讀報告正文后各項聲明AI應用計算量呈幾何級數增長,算法模型向巨量化發展。根據中國移動面向AI大模型的智算中心網絡白皮書,超大模型對于顯存的需求頁很高。在訓練過程中,前向計算產生的激活值、反向計算產生的梯度、參數更新需要的優化器狀態等中間變量均需要存儲,且中間變量在單次迭代中也會不斷增加。訓練超大模型需要數千GPU組成的集群。根據中國移動面向AI大模型的智算中心網絡白皮書,云數據中心使用CPU計算,

網絡需求一般在10Gbps~100Gbps,并且使用傳統TCP傳輸層協議。但AI

超大模型訓練使用GPU

訓練,互聯網絡需求在100Gbps~400Gbps,此外使用了RDMA協議來減少傳輸時延,提升網絡吞吐。根據銳捷網絡官網和新一代智算中心網絡技術白皮書(2022年)介紹,數據中心網絡架構演進:傳統三級網絡架構→Clos組網架構(智算中心網絡主流)→直連拓撲組網架構傳統三級網絡架構:分為接入層、匯聚層、核心層。適應早期數據中心南北向流量(即數據中心之外的客戶端到數據中心服務器之間的流量)。Clos組網架構:無帶寬收斂的Fat-Tree胖樹架構與大二層Spine-Leaf葉脊架構,適應數據中心東西流量需求。直連拓撲組網架構:網絡直徑短,具備低成本、端到端通信跳數少,超算中心主流。傳統三級網絡架構 Clos組網架構 直連拓撲架構資料來源:《面向AI大模型的智算中心網絡白皮書》,銳捷網絡官網,《新一代智算中心網絡技術白皮書(2022年)》,甬興證券研究所請務必閱讀報告正文后各項聲明根據中國移動面向AI大模型的智算中心網絡白皮書,在AI

大模型訓練場景下,機內與機外的集合通信操作將產生大量的通信數據量。從機內GPU通信角度看,服務器內GPU應支持高速互聯協議,且其進一步避免了GPU通信過程中依靠CPU內存緩存數據的多次拷貝操作。從機間GPU通信角度看,流水線并行、數據并行及張量并行模式需要不同的通信操作,因此機間GPU的高速互聯對于網絡的單端口帶寬、節點間的可用鏈路數量及網絡總帶寬提出了高要求。網絡變化因素引入的時延抖動也對訓練效率產生影響。根據百度智能云智算中心網絡架構白皮書,分布式訓練系統的整體算力并不是簡單的隨著智算節點的增加而線性增長,而是存在加速比,且加速比小于1。存在加速比的主要原因是:在分布式場景下,單次的計算時間包含了單卡的計算時間疊加卡間通信時間。RDMA可以繞過操作系統內核,讓一臺主機可以直接訪問另外一臺主機的內存,是降低多機多卡間端到端通信時延的關鍵技術。當前RDMA

技術主要采用的方案為InfiniBand

和RoCEv2

兩種。AI模型訓練的流量模式為突發的獨特流量模式RDMA

通信示意圖資料來源:《面向AI大模型的智算中心網絡白皮書》,《智算中心網絡架構白皮書》,《用于新一代AI浪潮的下一代網絡白皮書》,甬興證券研究所請務必閱讀報告正文后各項聲明根據Marvell

2024AI

Day給出的定義,智算中心互連包括:計算節點、后端網絡、前端網絡、數據中心間互連:計算節點

(Compute

fabric):機柜內部GPU通過NVLink等方式采用銅纜連接(Scale-Up),CPU通過NIC/DPU與前端網絡光連接,GPU通過NIC/DPU與后端網絡光連接(Scale-Out)后端網絡

(Backend

network):Infiniband/Ethernet光連接網絡,集群內多個服務器連接前端網絡

(Frontend

network):Ethernet光連接網絡,AI服務器數據的輸入及運行結果的輸出,與數據中心的其余通用服務器、存儲和其他交換機等環節連接數據中心間互連

(DCI):采用相干光模塊長距離傳輸Marvell定義的智算中心互連全景圖 計算節點內部與前端、后端網絡的連接細節資料來源:Marvell:

Accelerated

Infrastructure

for

the

AI

Era

Event,甬興證券研究所傳統云網絡架構承載智算業務存在的挑戰。根據百度智能云智算中心網絡架構白皮書,傳統的云數據中心網絡一般是基于對外提供服務的流量模型而設計的,流量主要是從數據中心到最終客戶,即以南北向流量為主,云內部東西向流量為輔。承載VPC網絡的底層物理網絡架構,對于承載智算業務存在如下挑戰:有阻塞網絡:考慮到并非所有服務器都會同時對外產生流量,為了控制網絡建設成本,Leaf交換機的下聯帶寬和上聯帶寬并非按照1:1設計,而是存在收斂比,一般上聯帶寬僅有下聯帶寬的三分之一云內部流量時延相對較高:跨Leaf交換機的兩臺服務器互訪需要經過Spine交換機,轉發路徑有3跳帶寬不夠大:一般情況下單物理機只有一張網卡接入VPC網絡,單張網卡的帶寬比較有限,當前較大范圍商用的網卡帶寬一般都不大于200Gbps云數據中心VPC網絡的Spine-Leaf

架構和流量模型請務必閱讀報告正文后各項聲明資料來源:《智算中心網絡架構白皮書》,甬興證券研究所?

智算場景需要建立高性能網絡來承載智算業務,滿足大帶寬,低時延,無損的需求。根據百度智能云智算中心網絡架構白皮書,智算服務器可以滿配8張GPU卡,并預留8個PCIe網卡插槽。在多機組建GPU集群時,兩個GPU跨機互通的突發帶寬有可能會大于50Gbps。因此,一般會給每個GPU關聯一個至少100Gbps的網絡端口。在這種場景下可以配置4張2*100Gbps的網卡、8張1*100Gbps的網卡、8張單端口200/400Gbps的網卡。無阻塞網絡設計的關鍵是采用Fat-Tree(胖樹)網絡架構。交換機下聯上聯帶寬采用1:1無收斂設計,即如果下聯有64個100Gbps的端口,那么上聯也有64個100Gbps的端口。交換機要采用無阻塞轉發的數據中心級交換機。當前市場上主流的數據中心交換機一般都能提供全端口無阻塞的轉發能力。百度智能云同智算資源池AI-Pool

機間互通示意圖百度智能云跨智算資源池AI-Pool

機間互通示意圖請務必閱讀報告正文后各項聲明資料來源:《智算中心網絡架構白皮書》,甬興證券研究所?

根據百度智能云智算中心網絡架構白皮書,InfiniBand網絡的關鍵組成包括Subnet

Manager(SM)、InfiniBand

網卡、InfiniBand交換機和InfiniBand連接線纜。InfiniBand

網絡方案特點:原生無損網絡:InfiniBand

網絡采用基于credit

信令機制來從根本上避免緩沖區溢出丟包萬卡擴展能力:InfiniBand

的Adaptive

Routing

基于逐包的動態路由,在超大規模組網的情況下保證網絡最優利用InfiniBand交換機InfiniBand網卡?

InfiniBand

網絡設備供應商:NVIDIA、Intel、Cisco、Hewlett

Packard

EnterpriseInfiniBand網絡結構拆分線纜和光模塊等連接件集中式的子網管理器(Subnet

Manager)

InfiniBand

網絡的控制器請務必閱讀報告正文后各項聲明資料來源:《智算中心網絡架構白皮書》,甬興證券研究所根據百度智能云智算中心網絡架構白皮書,RoCEv2網絡是一個純分布式的網絡,由支持RoCEv2的網卡和交換機組成,一般情況下是兩層架構。RoCEv2網絡方案特點:RoCE方案相對于InfiniBand方案的特點是通用性較強和價格相對較低。除用于構建高性能RDMA網絡外,還可以在傳統的以太網絡中使用。但在交換機上的Headroom、PFC、ECN相關參數的配置是比較復雜的。在萬卡這種超大規模場景下,整個網絡的吞吐性能較InfiniBand

網絡要弱一些。?

RoCE網絡設備供應商:根據2023年百度智能云智算中心網絡架構白皮書介紹,市場占有率排名靠前的包括新華三、華為等。支持RoCE的網卡當前市場占有率比較高的是NVIDIA

的ConnectX

系列的網卡。RoCEv2網絡結構拆分線纜和光模塊等連接件

RoCE交換機RoCE

網卡當前大部分數據中心交換機都支持RDMA流控技術,和RoCE網卡配合,實現端到端的RDMA通信。國內的主流數據中心交換機廠商包括華為、新華三等。高性能交換機的核心是轉發芯片。當前市場上的商用轉發芯片用的比較多的是博通的Tomahawk系列芯片。其中Tomahawk3系列的芯片在當前交換機上使用的比較多,市請務必閱讀報告正文后各項聲明資料來源:《智算中心網絡架構白皮書》,甬興證券研究所

場上支持Tomahawk4系列的芯片的交換機也逐漸增多。

RoCEv2

承載在以太網上,傳統以太網的光纖和光模塊都可以用支持RoCE

網卡的廠家比較多,主流廠商為NVIDIA、Intel、Broadcom。數據中心服務器網卡主要以PCIe

卡為主。除了商用卡之外,以云廠商為代表的自研DPU也在蓬勃發展。?

InfiniBand和RoCEv2網絡方案對比:根據百度智能云智算中心網絡架構白皮書,具體到實際業務場景上看,RoCEv2是足夠好的方案,InfiniBand是特別好的方案。同集群端到端時延流控機制轉發模式負載均衡模式Infiniband RoCEv22us 5us基于Credit的流控機制 PFC/ECN,DCQCN等基于LocalID轉發 基于IP轉發逐包的自適應路由 ECMP方式路由故障恢復Self-HealingInterconnectEnhancementfor

IntelligentDatacenters路由收斂網絡配置通過UFM實現零配置手工配置供應商運維成本功能和規模Infiniband RoCEv2性能請務必閱讀報告正文后各項聲明資料來源:《智算中心網絡架構白皮書》,甬興證券研究所業務性能:InfiniBand的端到端時延小于RoCEv2,所以基于InfiniBand構建的網絡在應用層業務性能方面占優,但RoCEv2的性能也能滿足絕大部分智算場景的業務性能要求業務規模:

InfiniBand能支持單集群萬卡GPU規模,且保證整體性能不下降,并且在業界有比較多的商用實踐案例。RoCEv2網絡能在單集群支持千卡規模且整體網絡性能也無太大的降低業務運維:

InfiniBand較RoCEv2更成熟,包括多租戶隔離能力,運維診斷能力等業務成本:

InfiniBand的成本要高于RoCEv2,主要是InfiniBand交換機的成本要比以太交換機高業務供應商:

InfiniBand的供應商主要以NVIDIA為主,RoCEv2的供應商較多InfiniBand

和RoCEv2

的技術對比 InfiniBand

和RoCEv2對比示意圖投資建議未來十二個月內,維持通信行業“增持”評級。AIDC服務商:建議關注中國聯通、中國電信、中國移動、光環新網、世紀互聯等。AI服務器:建議關注浪潮信息、工業富聯、中科曙光、紫光股份、中興通訊等。交換機:建議關注中興通訊、盛科通信、紫光股份、銳捷網絡等。光連接:建議關注中際旭創、天孚通信、光迅科技、源杰科技、華工科技等。銅連接:建議關注博創科技、華豐科技、神宇股份等。溫控:建議關注英維克、浪潮信息、高瀾股份、中科曙光等。請務必閱讀報告正文后各項聲明風險提示AI模型及應用發展不及預期:AI模型及應用發展受各方影響因素較多,若不能及時有效推動,整體建設或不能達到預期。貿易摩擦加劇的風險:若貿易摩擦加劇,可能會對相關產品的進口造成不利影響,從而對相關公司業績造成不利影響。國內算力資本開支不及預期:若國內云廠商算力相關資本開支未能持續高增,AIDC建設或不能達到預期。請務必閱讀報告正文后各項聲明分析師聲明本報告署名分析師具有中國證券業協會授予的證券投資咨詢執業資格并注冊為證券分析師,以勤勉盡責的職業態度,專業審慎的研究方法,獨立、客觀地出具本報告,保證報告采用的信息均來自合規渠道,并對本報告的內容和觀點負責。負責準備以及撰寫本報告的所有研究人員在此保證,本報告所發表的任何觀點均清晰、準確、如實地反映了研究人員的觀點和結論,并不受任何第三方的授意或影響。此外,所有研究人員薪酬的任何部分不曾、不與、也將不會與本報告中的具體推薦意見或觀點直接或間接相關。公司業務資格說明甬興證券有限公司經中國證券監督管理委員會核準,取得證券投資咨詢業務許可,具備證券投資咨詢業務資格。體系與評級定義說明:不同證券研究機構采用不同的評級術語及評級標準,投資者應區分不同機構在相同評級名稱下的定義差異。本評級體系采用的是相對評級體系。投資者買賣證券的決定取決于個人的實際情況。投資者應閱讀整篇報告,以獲取比較完整的觀點與信息,投資者不應以分析師的

取代個人的分析與判斷。股票 :分析師給出下列評級中的其中一項代表其根據公司基本面及(或)估值預期以報告日起6個月內公司股價相對于同期市場基準指數表現的看法。買入股價表現將強于基準指數20%以上增持股價表現將強于基準指數5-20%中性股價表現將介于基準指數±5%之間減持股價表現將弱于基準指數5%以上行業 :分析師給出下列評級中的其中一項代表其根據行業歷史基本面及(或)估值對所研究行業以報告日起12個月內的基本面和行業指數相對于同期市場基準指數表現的看法。增持行業基本面看好,相對表現優于同期基準指數中性行業基本面穩定,相對表現與同期基準指數持平減持行業基本面看淡,相對表現弱于同期基準指數相關證券市場基準指數說明:A股市場以滬深300指數為基準;港股市場以恒生指數為基準;新三板市場以三板成指(針對協議轉讓標的)或三板做市指數(針對做市轉讓標的)為基準指數。特別聲明在法律許可的情況下,甬興證券有限公司(以下簡稱“本公司”)或其關聯機構可能會持有報告中涉及的公司所發行的證券或期權并進行交易,也可能為這些公司提供或爭取提供投資銀行、財務顧問以及金融產品等各種服務。因此,投資者應當考慮到本公司或其相關人員可能存在影響本報告觀點客觀性的潛在利益沖突,投資者請勿將本報告視為投資或其他決定的唯一參考依據。也不應當認為本報告可以取代自己的判斷。版權聲明本

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論