




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
3 4 4 4 6 7 9 9 30 314參數(shù)規(guī)模增加,模型訓(xùn)練的效果越來(lái)越好,且兩者之間符合Scalinglaw規(guī)律。當(dāng)模型的參數(shù)規(guī)模超過數(shù)百億后,AI大模型的語(yǔ)言理解能力、邏輯推理能力以型參數(shù)的規(guī)模和性能后,AI大模型訓(xùn)練對(duì)于網(wǎng)絡(luò)的“爆發(fā)式”增長(zhǎng)。據(jù)統(tǒng)計(jì),2012~2022年模型算力需求每年增長(zhǎng)4倍,而2023千/萬(wàn)卡GPU組成的集群高速互聯(lián)。此外,機(jī)內(nèi)GPU通信和機(jī)外集合通信將產(chǎn)達(dá)到數(shù)百GB量級(jí)。若要在極短時(shí)間內(nèi)完成參數(shù)交換,將對(duì)GPU與GPU間、GPU與網(wǎng)卡間、網(wǎng)卡與網(wǎng)卡間的超高帶寬互聯(lián)提出較高要求。網(wǎng)絡(luò)擁塞和丟包也會(huì)嚴(yán)重影響GPU計(jì)算效率,據(jù)實(shí)驗(yàn)統(tǒng)計(jì),0.1%的網(wǎng)絡(luò)丟包率就會(huì)帶來(lái)50%的算力損失,因此提升通信性能可有效釋放智能算力。AI大模型訓(xùn)練/推理需要智算網(wǎng)絡(luò)具備超大規(guī)模、超高帶寬、超低),對(duì)AI基礎(chǔ)設(shè)施帶來(lái)極大挑戰(zhàn)。在構(gòu)建萬(wàn)卡甚至十5),及大型企業(yè)自建,集中在京津冀、長(zhǎng)三角和粵港澳。算圖1-1多智算中心合一場(chǎng)景的關(guān)鍵能力。算-算拉遠(yuǎn)能夠充分利用碎片資源來(lái)執(zhí)行圖1-2碎片資源整合場(chǎng)景6計(jì)算集群和存儲(chǔ)集群的網(wǎng)絡(luò)成為實(shí)現(xiàn)云存儲(chǔ)服務(wù)高性能和高可靠性的關(guān)鍵。存-(2)網(wǎng)絡(luò)擁塞丟包,使性能急劇下降:當(dāng)前AI訓(xùn)練采用RDMA協(xié)議,而要使得RDMA吞吐不受影響,丟包率必須保證在十萬(wàn)分之一以下,最好為零丟包。在長(zhǎng)距拉遠(yuǎn)場(chǎng)景下,當(dāng)網(wǎng)絡(luò)出現(xiàn)擁塞時(shí),若沒有在RTT(往返時(shí)間)內(nèi)及圖1-3丟包影響RDMA吞吐7谷歌利用自研低成本、高性能TPUv4超級(jí)計(jì)算機(jī)(SuperPod)滿足大模型8也是用2個(gè)TPUv4SuperPod訓(xùn)練的。OpenAI與微軟也在計(jì)劃建設(shè)十萬(wàn)甚至百又提出去中心化異構(gòu)訓(xùn)練,利用分布式、異構(gòu)和低帶寬互聯(lián)的AI訓(xùn)練資源來(lái)訓(xùn)踐表明LLM訓(xùn)練的吞吐性能相比傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)而言提升了14.9%。百度智之間通過全光子網(wǎng)絡(luò)(APN)搭建LLM遠(yuǎn)程訓(xùn)練企業(yè)本地,而使用數(shù)百公里外數(shù)據(jù)中心的GPU進(jìn)行訓(xùn)練,訓(xùn)練效果與本地的訓(xùn)圖1-4阿里HPN7.0架構(gòu)當(dāng)前單點(diǎn)智算中心算力規(guī)模受限、算力資源碎片化嚴(yán)重,難以承載大規(guī)模9支撐十萬(wàn)卡甚至百萬(wàn)卡級(jí)別的AI訓(xùn)練任務(wù),同時(shí)提高資源利用率,是未實(shí)現(xiàn)最優(yōu)成本的bit傳輸和算力的綠色供給。圖2-1分布式智算中心無(wú)損網(wǎng)絡(luò)總體架構(gòu)通用計(jì)算區(qū):包括CPU等通用服務(wù)器,支持各種類型的應(yīng)用程序和服務(wù)。色,通過相互協(xié)作確保整個(gè)分布式智算中心的高效圖2-2AI集群區(qū)網(wǎng)絡(luò)互聯(lián)架構(gòu)接入層:由ServerLeaf交換機(jī)組成,支持AI算力服務(wù)器準(zhǔn)流控等技術(shù),實(shí)現(xiàn)網(wǎng)絡(luò)負(fù)載均衡和長(zhǎng)距無(wú)損,為A廣域互聯(lián)層:不同智算中心節(jié)點(diǎn)之間采用OTN全光網(wǎng)一跳直達(dá),全程無(wú)擁通過這些設(shè)計(jì),AI集群網(wǎng)絡(luò)架構(gòu)能夠在長(zhǎng)距離、大規(guī)模的分布式計(jì)算環(huán)境伸,方案具備長(zhǎng)距無(wú)損、超大帶寬、超高可靠、彈性敏作為輸入輸出協(xié)議。由于RDMA對(duì)網(wǎng)絡(luò)擁塞和輸過程中不會(huì)出現(xiàn)擁塞或丟包現(xiàn)象,從而避(2)超大帶寬:超大帶寬能夠確保大量數(shù)據(jù)在分輸,加速AI模型的訓(xùn)練和推理過程。隨著數(shù)據(jù)量的增加,分布式智算中心之間需拆建能力,能夠根據(jù)計(jì)算需求的變化快速調(diào)整,快速準(zhǔn)確地定位和解決問題,提高故障定位的準(zhǔn)確分布式智算中心無(wú)損網(wǎng)絡(luò)在IP網(wǎng)絡(luò)層和光傳輸層都需要引入新的技圖3-1分布式智算中心無(wú)損網(wǎng)絡(luò)關(guān)鍵技術(shù)點(diǎn)智算業(yè)務(wù)的通信模式為集合通信,其中最主要的是AllGather和AllReduce集合通信。集合通信的特點(diǎn)是所有主機(jī)都會(huì)進(jìn)行相同的操作,如圖3-2所示。AllGather:多臺(tái)主機(jī)把數(shù)據(jù)的不同部分發(fā)給所有圖3-2集合通信操作Halving-Doubling(HD)算法。其中Ring算法通信模式簡(jiǎn)單,每臺(tái)主機(jī)只需跟自己的鄰居通信;HD算法通信模式較復(fù)雜,但通信次數(shù)比Ring算法少,靜態(tài)時(shí)延帶來(lái)的開銷小,因此對(duì)于小字節(jié)的通信效果更佳。然而~~~~NS(3)每個(gè)代表主機(jī)接收到對(duì)方的數(shù)據(jù)后,進(jìn)行本地加和,再將加和后的結(jié)圖3-3跨長(zhǎng)距集合通信算法架構(gòu)圖3-4新算法性能仿真其中智算業(yè)務(wù)限定了網(wǎng)絡(luò)的流量模型是集合通信。同構(gòu)主要指網(wǎng)絡(luò)設(shè)備的帶寬、每條等價(jià)路徑上都有流經(jīng)過,傳統(tǒng)基于ECMP哈希的負(fù)載均衡技術(shù)無(wú)法做到所圖3-5網(wǎng)絡(luò)級(jí)負(fù)載均衡技術(shù)如圖3-5所示,網(wǎng)絡(luò)級(jí)負(fù)載均衡技術(shù)可以通過統(tǒng)一規(guī)劃整網(wǎng)流量,讓所有路方案,另一種是在跨多個(gè)智算中心時(shí),由交換機(jī)+路由器端到端交換機(jī)精準(zhǔn)流控技術(shù)主要解決智算業(yè)務(wù)場(chǎng)景下故障丟包引起的業(yè)務(wù)性能下備緩存不足以接納鏈路在途數(shù)據(jù)包,從而發(fā)生丟包,如圖3-6所示。圖3-6近端擁塞和遠(yuǎn)端擁塞帶來(lái)的影響不同備,也就是源Leaf交換機(jī)。隨后,源流控協(xié)議報(bào)文,實(shí)現(xiàn)對(duì)流量的控速,如圖3-7所示。圖3-7交換機(jī)精準(zhǔn)流控技術(shù)下一個(gè)周期還會(huì)出現(xiàn)。基于這一特征,源Leaf交換機(jī)需要維護(hù)一張信息表,用第一周期獲取到整網(wǎng)擁塞信息后,后面所有周可以有效遏制擁塞和故障導(dǎo)致的反壓擴(kuò)散,顯暴和死鎖問題,實(shí)現(xiàn)了從端口級(jí)流控到數(shù)據(jù)流級(jí)面對(duì)數(shù)據(jù)中心內(nèi)高度動(dòng)態(tài)的業(yè)務(wù)負(fù)載變化,路由器精準(zhǔn)流控技術(shù)展現(xiàn)出極高的靈活性與智能性。其能夠根據(jù)實(shí)時(shí)網(wǎng)絡(luò)狀況動(dòng)態(tài)調(diào)整流控策略,實(shí)現(xiàn)流量峰值速率的流級(jí)別的獨(dú)立控制和精準(zhǔn)反壓,有效應(yīng)對(duì)網(wǎng)絡(luò)中的突發(fā)流量,保障整體網(wǎng)絡(luò)的平穩(wěn)運(yùn)行,實(shí)現(xiàn)故障的有效隔離不擴(kuò)散。此外,路由器精準(zhǔn)流控技術(shù)引入的彈性級(jí)聯(lián)降速機(jī)制,進(jìn)一步增強(qiáng)了網(wǎng)絡(luò)對(duì)突發(fā)情況的適應(yīng)能力,提升了網(wǎng)絡(luò)的韌性。圖3-8路由器精準(zhǔn)流控技術(shù)網(wǎng)絡(luò)設(shè)備間的鏈路故障或模塊故障會(huì)導(dǎo)致訓(xùn)練中斷。業(yè)界400G/200G光模塊年失效率達(dá)4~6‰。據(jù)統(tǒng)計(jì),萬(wàn)卡集群平均每年發(fā)生60如圖3-9所示,激光器的失效率占比為90%以上。200GE/400GE短距SR通道抗損技術(shù)可以在光模塊出現(xiàn)單通道故障時(shí),通過降低模塊實(shí)際使用lane的圖3-9光模塊失效模式以及跨智算中心長(zhǎng)距通信都對(duì)ROCE業(yè)務(wù)報(bào)文的傳輸質(zhì)量提出了較高要求,希圖3-10ROCE業(yè)務(wù)場(chǎng)景在分布式智算中心長(zhǎng)距組網(wǎng)場(chǎng)景下,計(jì)算服務(wù)器的接入Leaf作為統(tǒng)計(jì)的Ingress節(jié)點(diǎn)和Egress節(jié)點(diǎn),Spine和DCIleaf做Ingress:統(tǒng)計(jì)流的入口測(cè)量點(diǎn)。Ingress節(jié)點(diǎn)根據(jù)報(bào)文特征識(shí)別業(yè)務(wù)流量,Transit:統(tǒng)計(jì)流的中間測(cè)量點(diǎn)。Tra入網(wǎng)絡(luò)的時(shí)間與離開網(wǎng)絡(luò)的時(shí)間之差,即為網(wǎng)絡(luò)在本成熟,現(xiàn)已部署在智算DCI百公里級(jí)互聯(lián)場(chǎng)景中,在滿足智算互聯(lián)百T級(jí)大進(jìn)一步降低單bit成本。圖3-11單播速率不斷提升信號(hào)占用的譜寬不斷提升。為獲得更大的單纖系統(tǒng)容量,需要在傳統(tǒng)C波段的量(最高可達(dá)96Tbps超大帶寬),進(jìn)一步滿足智算中心之間的海圖3-12C+L波段提供更大容量根據(jù)距離、時(shí)延等不同約束,由業(yè)務(wù)側(cè)驅(qū)動(dòng)建立不同方向的波長(zhǎng)級(jí)連接,因此圖3-13帶寬分時(shí)復(fù)用的業(yè)務(wù)場(chǎng)景電驅(qū)光技術(shù)有兩種典型場(chǎng)景1)波長(zhǎng)級(jí)的電驅(qū)光,動(dòng)態(tài)拆建光層波長(zhǎng);如指定源宿站點(diǎn)/網(wǎng)元、路由策略、保護(hù)等級(jí)),并結(jié)合當(dāng)前網(wǎng)絡(luò)拓?fù)浜唾Y源使(2)光電交叉同步創(chuàng)建:自動(dòng)生成業(yè)務(wù)配置參數(shù),包含但不限于:Client傳統(tǒng)的WSON重路由時(shí)間為秒級(jí)到分鐘級(jí),現(xiàn)網(wǎng)測(cè)試中容易發(fā)生概率性訓(xùn)練中斷事件,影響智算業(yè)務(wù)。因此,需要進(jìn)一步提升WSO現(xiàn)確定性的光層恢復(fù)能力。當(dāng)前現(xiàn)網(wǎng)重要業(yè)務(wù)采用電層SNCP+光層重路由,通電層SNCP要求冗余資源多,需要考慮光層的50ms保護(hù)能力。針對(duì)智算百公里級(jí)互聯(lián)場(chǎng)景,利用WSON50ms技有的協(xié)議報(bào)文轉(zhuǎn)發(fā)芯片,可達(dá)成ms級(jí)的傳輸性能,降低了對(duì)CPU和業(yè)務(wù)跳數(shù)識(shí)別困難、故障的定界/定位耗時(shí)費(fèi)力、保護(hù)倒換等圖3-14智能故障處理流程圖通過QoT模型對(duì)光傳輸系統(tǒng)的物理層損傷進(jìn)行精確建模,如圖3-16所示,采用智能預(yù)測(cè)算法可以對(duì)OCh備路徑和加掉波的余量變化進(jìn)行分析和預(yù)測(cè),更直接準(zhǔn)確地反映系統(tǒng)傳輸能力,并進(jìn)行OCh劣圖3-15光網(wǎng)絡(luò)物理層智能QoT模型示意圖位效率;余量預(yù)測(cè)通過精準(zhǔn)評(píng)估加掉波前的OSNR余量,提前預(yù)測(cè)加調(diào)波對(duì)現(xiàn)智算需求旺盛,是全國(guó)的智算高地。為滿足未來(lái)北京市內(nèi)及京津冀用算需求,以及解決單節(jié)點(diǎn)智算中心資源受限、不同智算中心資源使用不均衡等問題,中國(guó)電信率先在北京開展了分布式智算中心無(wú)損網(wǎng)絡(luò)試驗(yàn),驗(yàn)證跨數(shù)據(jù)中心合池網(wǎng)開展了真實(shí)場(chǎng)景下百公里拉遠(yuǎn)對(duì)大模型訓(xùn)練的影響及穩(wěn)定性測(cè)試,并在全國(guó)率先完成基于高帶寬、低時(shí)延的全光800G超高帶寬傳輸。項(xiàng)目組從多拓?fù)洹⒍嗄P汀⒍喙收系染S度積極開展主流方案摸底測(cè)試,并對(duì)仿真驗(yàn)證結(jié)果進(jìn)行分基于北京全光運(yùn)力網(wǎng)規(guī)劃,項(xiàng)目組先后開展了現(xiàn)網(wǎng)機(jī)房的64卡以及1024卡組網(wǎng)驗(yàn)證。一階段在京津冀智算機(jī)房進(jìn)行80km/120km繞行拉遠(yuǎn)驗(yàn)證,模擬了兩個(gè)數(shù)據(jù)中心組網(wǎng),組網(wǎng)拓?fù)淙鐖D4-1所示。二階段在武清、瀛海、永豐三機(jī)房開展百公里分布式大模型訓(xùn)練,驗(yàn)證當(dāng)前分布式智算中心無(wú)損網(wǎng)絡(luò)解決方案在真實(shí)業(yè)務(wù)場(chǎng)景下的效果,并探索分布式智算集群對(duì)大模型訓(xùn)練性能影響的關(guān)鍵因素,組網(wǎng)拓?fù)淙鐖D4-2所示。在前期百卡、百公里拉遠(yuǎn)驗(yàn)證基礎(chǔ)上,三拓?fù)淙鐖D4-3所示,本階段探索長(zhǎng)距鏈路帶寬收斂情況下模標(biāo)是推動(dòng)無(wú)損智算互聯(lián)網(wǎng)絡(luò)的技術(shù)進(jìn)一步突破。系列試驗(yàn)均驗(yàn)證了在不同拓?fù)渲蟹植际街撬阒行臒o(wú)損網(wǎng)絡(luò)方案的有效性和穩(wěn)定性。此外,模可能出現(xiàn)的故障情況,以驗(yàn)證方案在面對(duì)線路路障、服務(wù)器端口故障及其他異模型選取方面,在百卡組網(wǎng)規(guī)模下開展了LLAMA2-7B、LLAMA2-13B、圖4-1京津冀智算機(jī)房80km/120km繞行拉遠(yuǎn)驗(yàn)證組網(wǎng)圖4-2武清、瀛海、永豐三地IDC機(jī)房拉遠(yuǎn)驗(yàn)證組網(wǎng)圖4-3京津冀智算機(jī)房千卡120km繞行拉遠(yuǎn)驗(yàn)證組網(wǎng)項(xiàng)目組利用分布式智算中心無(wú)損網(wǎng)絡(luò)方案整合DC機(jī)房資源,在全球首次解決了百公里長(zhǎng)距跨機(jī)房大模型訓(xùn)練難題。訓(xùn)練效率方面,在不同組網(wǎng)拓?fù)湎虏煌P涂鐧C(jī)房訓(xùn)練均可達(dá)同機(jī)房訓(xùn)練
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 瓷器分解合作協(xié)議合同
- 物流送貨勞務(wù)合同協(xié)議
- 電信施工安全協(xié)議合同
- 甘肅銀行貨款合同協(xié)議
- 電商購(gòu)貨擔(dān)保合同協(xié)議
- 玉米糧食購(gòu)銷合同協(xié)議
- 界面劑采購(gòu)合同協(xié)議
- 生產(chǎn)加工罐頭合同協(xié)議
- 瑜伽店加盟合同協(xié)議
- 瑪鈴薯金融居間協(xié)議合同
- DB52/T 1212-2017 煤礦地面在用瓦斯泵及瓦斯泵站安全檢查規(guī)范
- 員工外派學(xué)習(xí)合同范本
- 翡翠鑒定培訓(xùn)課件
- 安徽省2025年中考語(yǔ)文作文評(píng)分標(biāo)準(zhǔn)
- GB/T 45242-2025保健食品中肌醇的測(cè)定
- 污水處理設(shè)施運(yùn)維服務(wù)投標(biāo)方案(技術(shù)標(biāo))
- 初級(jí)經(jīng)濟(jì)師工商管理專業(yè)知識(shí)與實(shí)務(wù)要點(diǎn)總結(jié)
- 股東查賬申請(qǐng)書
- PEP人教版小學(xué)英語(yǔ)三年級(jí)下冊(cè)單詞表
- 【中考真題】2024年廣東省廣州市中考物理試卷(附答案)
- 護(hù)理帶教老師選拔
評(píng)論
0/150
提交評(píng)論