亞太區智算中心液冷應用現狀與技術演進_第1頁
亞太區智算中心液冷應用現狀與技術演進_第2頁
亞太區智算中心液冷應用現狀與技術演進_第3頁
亞太區智算中心液冷應用現狀與技術演進_第4頁
亞太區智算中心液冷應用現狀與技術演進_第5頁
已閱讀5頁,還剩93頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

亞太區智算中心液冷應用現狀與技術演進白/皮/書致謝在此特別感謝中國電信國際公司的管理層,特別鳴謝吳曉雷、陳凱、程雍對于本次白皮書撰寫的大力支持。順序,排名不分先后):曹維兵、柴學、陳剛、陳淼、陳天鵬、丁海峰、杜華銳、段振、馮立波、符曉、葛鷹、黃維華、井湯博、鞠昌斌、Kozen、李劍、李典林、李輝、李志強、李巍、劉衛民、劉昕、陸干、陸景瑩、雒志明、王藝歐、王海峰、喬興波、喬嶠、任政、任華華、孫地、唐虎、唐康、吳道雄、吳建雨、TuanGiang、張冰、張炳華、張廣宏、張鵬、張齊鑫、張珊珊、朱亮、張義、周曉偉等。感謝您們的辛苦付出和努力,白皮書的每一個知識點的落實離不開你們的付希望《亞太區智算中心液冷應用現狀與技術演進白皮書》不僅可以為液冷技術的發展提供堅實的理論基礎,還可以為推動亞太區智算中心液冷技術的創新與發展,為智算中心的演進貢獻一份力量!《亞太區智算中心液冷應用現狀與技術演進白皮書》編委會2024年12月亞太區智算中心液冷應用現狀與技術演進白皮書電信國際編委組:電信國際編委組: 王洪濤WANGHONGTAO趙昊天ZHAOHAOTIAN 王洪濤WANGHONGTAO趙昊天ZHAOHAOTIAN深知社編委組:深知社編委組:ZHANGDTWANGLEIWANGMOURUT董衛衛DONGWEIWE裴夢秋PEIMIENGQIUZHOUTING序言在2024年最后一個月,我們可以來簡單回顧一下今年對數據中心行業的意義。如果說2023年從ChatGPT發布開始成為AI元年,那么我們就有足夠的信心稱2024年為液冷元年,當然是特指數據中心行業。但2024年的年初和年尾,數據中心行業對液冷的應用卻經歷了一個從懷疑觀望,到理解接受,最終堅定擁抱的態度轉變過程。這個過程具有戲劇化的一點主要是,在僅僅一年之內就完成了這個行業對一個核心技術的從質疑到擁抱的全過程,這在數據中心這么一個一直以“保守”著稱的行業而言是從未發生過的。作為全球通信企業的領導者之一,中國電信很早就開始關注智算技術與市場的發展,并致力于與AI相關基礎設施的研究與創新。2023年12月,中國電信集團就根據國內智算中心的發展現狀與預期,首先提出了以“兩彈一優”為核心方法論的新一代AI智算基礎設施建設指南,從“能源彈性、制冷彈性、氣流優化”三個維度對智算基礎設施的核心管理目標進行歸納和總結,有效的對全產業生態進行了科學高效的指導。2024年初,中國電信國際有限公司(以下簡稱CTG)開始關注以亞太地區為代表的國際智算基礎設施發展情況,特別是液冷技術在AIDC的應用情況和趨勢。針對亞太地區國家眾多的情況,在國情不同、芯片發展速度快、產業信息不透明等特殊情況下,CTG希望通過一種國際化、動態化和標準化的研究形式,快速對亞太地區智算中心液冷應用進行調研,并能夠基于不同場景提出具體的液冷部署方法,為迷霧中的亞太地區智算基礎設施行業點亮一盞明燈。基于以上背景和訴求,CTG聯合深知社,共同發起這本《亞太地區智算中心液冷技術應用現狀與技術演進》白皮書,力求通過深度的調研和實地的考察,準確還原當下亞太地區不同國情、不同模式、不同階段的智算中心液冷應用情況。并通過總結、歸納、創新,基于“兩彈一優”總體技術框架,對液冷應用進行場景化對比,對智算中心的發展趨勢做出有效的判斷。和深知社分別在雅加達、上海、香港、新加坡、吉隆坡、胡志明、北京等城市舉辦了多場液冷應用相關的深談會(DeepKnowledgeSymposium)和數據中心訪談,通過深談會和實地訪談產生了大量與液冷相關的知識素材,并通過CTG專家團隊和深知社研究員團隊精心梳理和編寫,最終形成了這本《亞太地區智算中心液冷應用現狀與技術演進》白皮書。這本白皮書以純粹的工程師視角、寬廣的國際化視野、深入的調查訪談作為主要的差異點,希望能夠成為亞太地區數據中心從業者深度了解液冷的價值參考。本次白皮書的訪談和編制過程中,CTG和深知社得到了ASHRAE亞太地區各亞太區智算中心液冷應用現狀與技術演進白皮書個國家分會組織的鼎力支持。不僅僅是最終的這本白皮書本身,整個白皮書調研、訪談、編寫、翻譯的過程均在國際化團隊的背景下進行,有效促進了中國與亞太地區數據中心工程師的溝通和交流。最后,感謝深知社的研究員和志愿者團隊對此次白皮書辛苦的付出。歡迎各位讀者在閱讀完本白皮書后也提出您的寶貴想法和建議。從亞太乃至全球范圍,CTG將繼續認真聽取來自產業一線的聲音,以期為更為廣闊的國際智算產業發展提供優質的服務水平。中國電信國際有限公司2024年12月10日目錄 11.1GPU芯片快速發展帶來的能耗與散熱挑戰 11.2規模部署給機柜散熱帶來新的挑戰 21.3智算中心用電規模及能效的挑戰 31.4智算中心水資源利用率WUE的挑戰 51.5液冷技術應用的機遇與挑戰 5 82.1亞太地區數據中心產業現狀及重點地區分析 82.2亞太地區智算中心發展遇到的氣候挑戰 2.3亞太地區智算中心液冷應用現狀與發展趨勢 3.1液冷通用架構 3.2熱捕獲 3.4冷源 4.1風液融合是智算中心液冷應用的必由之路 4.2常見的風液融合架構 4.3不同風液融合架構下WUE、PUE、TCO對比分析 4.4架構選擇建議 5.1大型智算中心的液冷架構 5.2中小型智算中心的液冷架構 6.1數據中心產品預制化發展的趨勢與價值 6.2冷源預制化方案 6.3一體化液冷機柜及液冷微模塊 6.4冷板式液冷集裝箱 7.1冷凍水系統的液冷改造 7.2直膨式空調系統 8.1冷板系統可靠性驗證 8.2冷板液冷服務器適配性驗證 8.3冷板液冷系統運維界面劃分 8.4冷板液冷系統的運行與維護 9.1數據中心制冷技術的演進分析 9.2未來熱門的液冷技術應用前瞻 亞太區智算中心液冷應用現狀與技術演進白皮書第一章、智算產業發展與液冷技術應用的機遇與挑戰1.1GPU芯片快速發展帶來的能耗與散熱挑戰(詳見名詞解釋)等芯片的發展,基于大模型的人工智能產業得以快速迭代。以英偉達(NVIDIA)(詳見名詞解釋)為例,自從2016年推出Pascal系列GPU之后,基本保持了兩年更新一代架構的GPU芯片智能算力的快速提升。隨之而來的是在做人工智能大模型訓練和微調時,模型進化所需要的能源在不斷減小。英偉達創始人黃仁勛在2024年GTC大會上公布的數據(如圖1-1),從P100芯片到目前最先進的B100芯片,在訓練GPT-MoE-1.8T這樣的模型時,每token所消耗的能源下降了45,000倍。EnergyEnergyrequiredfortokensdrops45,000Xineightyears17,C00Joules/token1,000XAlcomputeineightyearsVolta1.200Joubos/token400oTFLoPs620TFLCPsBF16/FPI62016201819TFLDPSHopper20242020圖1-1B100GPU較P100處理Token的能耗減少了45000倍按照這個數據我們來推演一下,訓練一個GPT4-MOE-1.8T,以10天為訓練周期所需要的能源總數見表1-1。可見,芯片算力的演講是算力普惠的必由之路,只有足夠便宜的算力成本,才能推動智算行業蓬勃發展,賦能千行百業。年份GPUV100A100H100B100峰值(TFLOPS)4,00020,000訓練和推理精度FP16FP16FP16FP8FP4推理每token焦耳數訓練所需電力(GW/小時)3甚至更高。10010000o-FPT6稀疏算力(單位:60004003500按照英偉達最新的計劃,采用最新芯片架構的GB200算力模組,模組的散熱功率達到5400W(兩塊GB200),如此高的芯片功率密度,給GPU服務器的除芯片的散熱功率快速攀升以外,智算大規模部署時網絡架構、網絡帶寬及網絡延時的水平直接影響集群的有效算力,也間接影響了機柜熱密度。亞太區智算中心液冷應用現狀與技術演進白皮書Al大模型的訓練是以GPU的大規模集群為基礎來實現的。在模型訓練線性加速比:網絡通信時延決定集群算力線性加速比。在分布式場景下,單次的計算時間包含了單卡的計算時間疊加卡間通信時間,導致加速比<1。有效運行時間:網絡可靠性決定GPU集群有效運行時間。長時訓練網絡不少傳輸延時和降低網絡成本(網絡層級、通信線纜距離),因此也要將更多的的一個18柜的可擴展微模塊包含576張GPU,稱為一個SuperPod,其功率達到1200KW,相當于傳統數據中心240個IT機柜的用電量。如此高的功率密度(提升13倍)也給數據中心的基礎設施散熱提出了前所未有的挑戰。1.3智算中心用電規模及能效的挑戰的增長。根據高盛研究的預測(見圖1-3),2023年至2030年間,人工智能將資料來源:Masanet等(2020年)、思科、IEA、高盛研究Sachs202220242026圖1-3數據中心用電量預測隨著大模型的快速迭代,人工智能的下一步演進目標是訓練和應用一個具有萬億參數規模的多模態大模型,其中包含大量的視頻、圖片、音頻和文本。目前多家企業的人工智能實驗室(包含但不限于:OpenAl/Microsoft、xAI、Meta)正在為此努力,競相構建10萬以上的GPU集群。以目前主流的英偉達H100為例,構建一個10萬卡的訓練集群服務器的投資超過40億美金,所需智算中心IT電力容量超過150MW,一年消耗1.59TWh的電力,按照0.078USD/kWh的電力成本計算,總電力支出為1.239億美金。H100構成的集群的用電構成如下:每顆GPU本身的額定功率為700W,構成服務器的CPU、網絡接口卡(NIC)、電源單元(PSU)總功率為575W,一般為8卡構成一臺服務器模組。除H100服務器外,Al集群還需要存儲服務器、網絡交換機、CPU節點、光收發器和許多其他輔助產品,加起來用電功率占IT總功率的10%,因此一個含有10萬張H100的智算集群,IT總功率為150MW。按照目前亞太區平均單位電能利用效率PUE(見名詞解釋)水平在1.5左右,每運行一個150MW的算力集群,輔助系統的用電也達到75MW,這樣一年的運行支持高達6000萬美金。可見,在未來的一段時間內,總電力規模的需求和單位能耗比PUE將成為制約智算中心建設的關鍵。而其中制冷系統的能耗占比為70%是節能降耗的關鍵。一方面,智算中心建設的重點區域需要集中力量解決電力供給問題,并兼顧能源的可持續性。需要引進多種清潔能源構成足夠容量的電力系統來承載智算中心的高速發展。另外一方面需要進入先進的關鍵技術設施技術,如高效供配電系統、自然冷卻、液冷等技術,大幅度降低智算中心PUE,降低算力的能源成本,實現算力普惠。亞太區智算中心液冷應用現狀與技術演進白皮書除了能源問題以外,水資源一直是數據中心另外一項高度關注的自然資源,如何在快速提高算力的前提下,有效的改善水資源使用效率是智算中心可持續發展的重要指標。數據中心水資源利用率(WUE)(見名詞解釋)是衡量數據中心IT工作量的WUE=2m3/MWh,一年的耗水量就達到1,708,200m3,相當于11萬戶家庭的以亞太地區典型市場新加坡為例,2021年,新加采用更節水的制冷技術:包括風冷型空氣制冷和液冷等技術的應用,也可有效減少數據中心用水量。相關技術的用水水平及方案組合,會在本白皮書后續章節詳細闡述。1.5液冷技術應用的機遇與挑戰大于300W,機柜功率密度大于40kW以上時推薦使用液冷制冷技術。同時液冷液冷技術前景雖然廣闊,但實現的過程仍然充滿挑戰。在數據中心發展的60多年、云數據中心發展的20多年歷史來看,空氣冷卻型制冷(業內也稱風冷)一直占據絕對的主導地位,液冷技術僅用于科研為主要目標的超算場合。無論是浸沒式液冷還是冷板式液冷,在Hyperscale和Colocation規模下的大范圍商用還未曾經歷。智算中心的制冷技術能否順利完成從風冷向液冷的轉型,充滿不確定其中的挑戰來自于各項液冷技術的成熟度、芯片兼容性、基礎設施兼容性、運維的難度、故障處理的難度以及產業鏈的成熟。在技術融合與切換的過程中還存在液冷設備與以存在的傳統風冷機房的兼容問題、改造問題,風液共存的過渡都需系統性規劃。本白皮書會就液冷技術應用的上述挑戰一一進行分析并嘗試給出解決方案。中國電信」深知社第二章、亞太地區智算中心的發展2.1亞太地區數據中心產業現狀及重點地區分析日增根據咨詢機構的市場調研報告《AsiaPacificDataCentreUpdate2024-H1》披露:2024年上半年,亞太地區數據中心市場的運營容量已接近12GW,新增供應量約1.3GW,創下近年來的最大增幅。同時,整個地區在建的開發項目總量為4.2GW,規劃階段的項目總量為12.0GW,自2023年下半年末以來增加了2.8日增在亞太地區的14個市場中,主要的成熟市場是:中國大陸(4.2GW)、本(1.4GW)、印度(1.4GW)、澳大利亞(1.2GW)、新加坡(0.98GW);長最快的是馬來西亞(2.1GW)、中國香港(0.58GW)等市場。下面我們分別從成熟市場和新興市場挑選幾個典型來詳細分析。日本——環東京經濟圈區域2023年,環東京經濟圈的數據中心運營容量超過1GW,并在2024年上半年保持穩定增長。自2023年第二季度以來,整體的運營容量增加了14%。截止到2023年底,該市場還額外吸收了44MW的Hyper和Colocation的容量,平均的數據中心運營容量達到9MW,并計劃持續增容,達到平均40MW的規模。由于電力的短缺和基礎建設成熟從業勞動力的短缺,目前該地區很多數據中心的建設有所延誤。例如小田園數據中心的開發,在已確保了2025年可以獲得電力供應的前提下,宣稱服務上線時間延遲到2027-28年。供電的挑戰還反映在該市的電力建設進度上,雖然目前電力供應產能在穩步提升,電力缺口從340MW縮減到236MW,但與需求比仍然存在較大差距。勞動力短缺方面,預計會在2025年大阪世博會前有所改善。基于此情況,越來越多的運營商開始關注門檻較低的東京中央商務區以外的周邊地區(見圖2-1)。例如印西和相模原地區,土地成本明顯更低,電力供應不受限制,需求占東京都未來數據中心供應容量的60%以上。吉寶公司與三井不動產簽署了一份諒解備忘錄,以探索數據中心日本和東南亞的發展和投資機會。此外,吉寶數據中心基金Ⅱ(KDCFIⅡ)還與三井不動產簽訂了遠期購買框架協議,位于東京西部(相模原集群的一部分)的300,000平方英尺(27,870平方米)永久產權專用數據中心,該數據中心將于2027年竣工,成為吉寶在日本的首個數據中心項目。亞太區智算中心液冷應用現狀與技術演進白皮書新加坡地區目前是亞太地區數據中心投資的熱土。截止到到2024年,新加坡總IT容量為1347MW,其中已經投運的有965MW占比71.64%;在建的有101MW,占比7%;規劃中的有281MW,占比20.87%。其中托管類自用業務占比44.77%,目前的空置率僅為8MW。雖然新加坡是目前亞太地區數據中心產品的核心,但由于數據中心基礎設施特別是以AI為主要驅動的智算中心基礎設施的建設和運行需要消耗大量的土地、電力和水,而新加坡本地這些資源都相對緊張。因此為迎接智算時代的數據中心高爆發需求,新加坡政府更多的推動與馬來西亞的合作,將數據中心的建設放在馬來西亞的柔佛和巴淡島,據悉,未來新加坡60%的新增數據中心都會投資到這兩個地區。隨著2019年新加坡暫停建設本土數據中心以后,最具地理優勢的馬來西亞成為了亞太地區最熱門的數據中心投資區域。據《第一數據:FirstBigData》發布的統計,目前馬來西亞數據中心有大吉隆坡和柔佛兩大集群。詳細如下:集群一:大吉隆坡地區。大吉隆坡地區是馬來西亞最早發展的數據中心集群之一。CSFGroup、BasisBay和VADS等公司是大吉隆坡地區市場的先行者。第一數據調研發現(見圖2-2),從2010年開始,大多數國際運營商通過收購進入吉隆坡市名第一。其余份額領先的公司包括NTT、AIMS、BridgeDataCenters和VADS。規劃中規劃中運營中已簽約在建公司數據中心名稱已建成+在建+已簽約總容量MicrosoftAzureRegion57.5NTTGlobalDataCentersCBJ532.2AIMSAIMS@Cyberjaya30.2BridgeDataCentresMYO330.2VADSVADSDataCenter24.1VantageDataCentresKUL1KeppelDataCentresACDF其他/1)已建成+在建+已簽約總201.22)規劃中的容量(MW)圖2-2大吉隆坡地區數據中心建設情況統計集群二:柔佛和巴淡島。根據STRCTURERESEARCH在2024年4月的報告《DCIREPORTSERIESMARTET:JOHOR&BATAM》披露的數據(見圖2-3):柔佛和巴淡島地區2024年計劃建設的數據中心數量達到82個,總容量達0KABILINDUSTRIALESTATETOTALDATACENTRES:82DATACENTRES:27DATACENTRES:10圖2-3柔佛及巴淡島地區2024年數據中心建設規劃及分布亞太區智算中心液冷應用現狀與技術演進白皮書2.2亞太地區智算中心發展遇到的氣候挑戰亞太地區面積廣闊,橫跨多個氣候帶和海洋系統,因此氣候特征呈現出多樣性和復雜性:東南亞為典型的熱帶雨林氣候和熱帶季風氣候,這些地區全年高溫多雨,降水豐富;中國南部、日本南部以及澳大利亞的部分地區,屬于亞熱帶季風氣候或亞熱帶濕潤氣候,這些地區夏季高溫多雨,冬季溫和少雨;中國東部、日本大部分地區以及朝鮮半島等,屬于溫帶季風氣候,夏季炎熱多雨,冬季寒冷主要地區氣候特征及散熱挑戰東南亞地區的數據中心眾多且發展潛力巨大,本章節以新加坡、馬來西亞、印尼為例,介紹它們的氣候特征及散熱挑戰。新加坡新加坡位于北緯1°18,東經103°51',馬來西亞半島的南端。新加坡地處熱帶,長年受赤道低壓帶控制,為赤道多雨氣候,年溫差和日溫差小,年平均溫度在23-33℃之間,濕度介于65%到90%之間。12月是一年中最冷的月份,平均氣溫24℃左右。6月是一年中最熱的月份,平均氣溫29℃左右。溫度(。C)溫度(。C)50JanFebMarAprMayJunJulAugSepOctNovDec圖2-4新加坡全年溫濕度根據ASHRAE的氣象數據(見圖2-4),新加坡近10年的極端高溫為36.1℃,中國電信」深知社極端低溫為21.7℃,極端濕球30.3℃。馬來西亞根據OMDIA的研究報告,馬來西亞數據中心最多的三個地區為:吉隆坡、賽城、新山。吉隆坡距賽城30多公里,距新山300多公里,但新山緊挨新加坡。因此選擇吉隆坡的氣候特征進行分析。吉隆坡位于北緯3°08',東經101°42',馬來西亞半島的西海岸。吉隆坡為熱帶雨林氣候,四季如夏,日照充足且降雨豐沛。年溫差和日溫差小,年平均溫度在23-34℃之間,濕度介于70%到95%之間。1月是一年中最冷的月份,平均氣溫27℃左右。5月是一年中最熱的月份,平均氣溫29℃左右。圖2-5吉隆坡全年溫濕度根據ASHRAE的氣象數據(見圖2-5),吉隆坡近10年的極端高溫為36.9℃,極端低溫為21.3℃,極端濕球31.3℃。印度尼西亞根據OMEDIA的研究報告,印尼數據中心最多的地區為:雅加達、泗水、萬隆、巴淡島、棉蘭。這五座城市雖然比較分散,但氣候特征非常接近。因此以雅加達為例分析氣候特征。雅加達位于南緯6°09',東經106°49',爪哇島的西北海岸。雅加達為亞太區智算中心液冷應用現狀與技術演進白皮書度在24-32℃之間,濕度介于60%到80%之間。旱季(5月至10月)氣溫相對較高在29-32℃之間,雨季(11月至次年4月)氣溫相對較低在28℃左右。根據ASHRAE的氣象數據(見圖2-6),吉隆坡近10年的極端高溫為37.7℃,極端低溫為19.2℃,極端濕球29.3℃。從上述的分析可以看出,東南亞幾個核心城市的氣候特征非常相似,主要表現為:終年高溫高濕,年溫差和日溫差小。從數據中心散熱的角度分析,東南亞的氣候條件并不優越。面臨的挑戰是濕熱的環境使得制冷部分的節能難度很大,主要依靠機械制冷,可利用自然冷源的時間非常有限,最終導致PUE偏高。綜上,東南亞的數據中心的散熱可以從以下四個方面考慮:1、提高機房溫度設定點,可以有效降低能耗。2、充分利用水資源,采用高效水冷冷機,并配合水側自然冷。3、采用先進的節能技術,例如液冷、余熱回收等。4、精細化運維、優化氣流組織、采用智能溫控系統等。方式。當前全球規模化部署冷板式液冷的數據中心并不多,我們以特斯拉8個GPU,機柜可以擺放8臺服務器,因此整機柜含有64個GPU。再由8個機柜構成一個陣列,共計512個GPU。Colossus集群共有超過1500個機架,接近200個陣列(見圖2-7)。靠運行,柜內CDU的核心部件,如循環泵、電源都采用了N+1冗余設計并支持在線維護(見圖2-8)。亞太區智算中心液冷應用現狀與技術演進白皮書柜內擺放的8臺服務器都有液冷出入水口,通過支岔路水管Monifold與冷在亞太區(除中國外),近兩年數據中心建設規模最大和建設速度最快的地區是馬來西亞。近兩年,以秦淮數據海外公司BridgeDataCenter和萬國數據為首的中國數據中心運營商,以及東南亞本地的NTT、STT等成熟運營商都在積極部署液冷數據中心,當前馬來地區的液冷數據中心規模也達到了150MW以上。2025年開始,隨著英偉達GB200NVL液冷整機柜業務的大量部署,亞太地區的液冷數據中心也會進入高速增長期。中國作為亞太區最大的獨立市場,在智算中心方面有系統化的規劃。在2024年的算力大會上,中國電信研究院發布的《智算產業發展研究報告(2024)》顯示(見圖2-10),截至2024年6月,中國已建和正在建設的智算中心超250個,已建成的有40多個。人工管計算中大連人工智能計算中心山西先進計算太原中心石家莊天津人工智能計算中心西寧西●中原人EQ\*jc3\*hps43\o\al(\s\up4(工智能計算中),鄭州)南京鯤鵬算瞞人工智能計算中心未來人工智能計算中心淮海智算中心南京智能計算中心海海●上海市人工智能公共服務算力平臺●浙江省青田縣元宇宙智算中心人工智能創新中心月武漢人工智能計算貫陽o星明0約些福建人工he計算中心中國東盟人工智能計算中心M橫琴人工智能超算中心離深圳入工智能融合賦能中心海南島廣州人工智能融合賦能中心拉薩智算中心西部地區智算中心東北地區智算中心東部地區智算中心呼和浩特武洪福N州寧東赤圖2-10中國智算中心規劃布局圖其中,中國電信臨港算力中心就是其中的優秀案例。作為上海“東西兩翼”智算中心之一,臨港算力公司建成了長三角首個國產單池萬卡液冷算力集群,智算容量超5EFLOPS,能夠支持萬億參數大模型訓練。這一成就不僅為科研院校、大模型公司等企業機構在Al計算、深度學習、訓練推理等研究中提供了澎湃的算力支持,其在基礎設施層的優秀特征如下:一是建設創新型的“兩彈一優”基礎設施。臨港算力網通過彈性供電、彈性供冷、機房氣流組織優化的“兩彈一優”,實現多元算力組合快速交付(見圖亞太區智算中心液冷應用現狀與技術演進白皮書2-11)。彈性供電方面,通過機柜設備的“小母線+彈性方艙”配電系統,一艙解決不同客戶集群部署模式帶來的機柜功率變化需求。彈性供冷方面,采用冷凍水系統、熱管多聯系統、液冷系統等多種數據中心冷卻手段,統籌預留基礎設施管井及接口,實現制冷技術彈性應用。機房氣流組織優化方面,通過流體動力學模擬計算機架和機房的氣流組織,精細化設計冷熱通道,開展建設性設計和周期性優化,綜合提升供冷效率。智算機柜智算機柜網絡機柜列間空調液冷一次側制冷循環液冷二次側制冷循環自2023年9月投入運營以來,建設大規模商用液冷資源池,通過“兩彈一練效率可達單集群的95%以上,完成5家大模型訓練性能測試,支撐星辰115B亞太區智算中心液冷應用現狀與技術演進白皮書液冷架構由多個部分組成,并且每個部分還可以繼續細分,但本質上液冷架構可以描述為三個部分:熱捕獲,熱交換,冷源。數據中心機房②①熱捕獲液冷服務器冷板式液冷(見圖3-2)的冷卻液不與IT發熱元件直接接觸,而是通過安裝在發熱元件(通常為CPU/GPU等大功耗部件)上的冷板(通常為銅鋁等導熱金冷板CPU/GPUManifold圖3-2冷板液冷實物圖及原理圖根據冷卻液在冷板中是否發生相變,冷板式液冷可以分為以下兩種類型:單相冷板和兩相冷板。兩種換熱類型的制冷架構基本一致,主要區別在于二次側冷卻液不同。單相冷板一般采用沸點較高的水基冷卻液,換熱過程不發生相變。兩相冷板一般采用沸點較低的制冷劑,換熱過程會發生相變。冷卻液的對比如下表3-1:亞太區智算中心液冷應用現狀與技術演進白皮書表3-1冷板式液冷冷卻液對比單相冷板兩相冷板冷卻液去離子水乙二醇/丙二醇水溶液氟化液(單相)氟化液(兩相)綜合熱性能較高中中高材料兼容性中中高高沸點高高高低冰點電導率高高極低極低環保問題低排放PFAS,ODP,GWPPFAS,ODP,GWP腐蝕風險低低無無微生物風險中低無無毒性無低無無維護頻率高中低低工作壓力低低低高價格$$冷板式液冷選擇冷卻液時,需要綜合分析冷卻液的熱性能、環保、兼容性、價格等因素。對于單相冷板液冷,需要特別關注冷卻液的防腐和細菌抑制能力,否則不但會導致換熱效率大幅下降,同時也可能造成泄漏,損壞服務器。推薦選擇25%丙二醇水溶液。對于相變冷板液冷,需要特別關注當地的環保法規和工作壓力。推薦選擇浸沒式:浸沒式液冷是將服務器內的元器件完全浸沒在冷卻液中,通過冷卻液的循環將服務器的熱量帶走,這種散熱形式也稱為接觸式液冷。根據冷卻液在換熱過程中是否相變,浸沒式液冷可以分為以下兩種類型:單相浸沒、兩相浸沒。單相浸沒:兩相浸沒:亞太區智算中心液冷應用現狀與技術演進白皮書一次側冷水一次側冷水單相液冷和兩相液冷兩者的制冷架構基本一致,主要差異在于二次側冷卻液的循環方式。相變液冷的冷卻液僅在浸沒腔體內循環,而單相液冷的冷卻液需要進入CDU中。冷卻液是浸沒液冷最需要關注的地方,也是其大規模應用的最大瓶頸。浸沒液冷將帶電狀態下的服務器完整的浸沒在冷卻液中,因此充當換熱介質的冷卻液必須是不導電的高穩定介電液體,這樣的介電液體通常不溶(或難溶)于水,可最大限度保障其絕緣性不被輕易破壞。浸沒液冷所使用的介電液體可以分為兩大類:油類、氟化液。油類沸點非常高,因此只應用于單相浸沒;氟化液種類繁多,可以配制成各種沸點,例如從55℃到200℃以上。低沸點(例如55℃)用于兩相浸沒,而高沸點用于單相浸沒。兩者的對比如下表3-2:液冷形式單相浸沒兩相浸沒冷卻液油類氟化液(單相)氟化液(兩相)綜合熱性能中較高高材料兼容性中高高信號完整度中高高沸點高高低閃點有無無老化變質易不易不易可靠性低高高環保問題排放PFAS,ODP,GWPPFAS,ODP,GWP維護難度高低低價格$浸沒液冷在選擇冷卻液時,需要從以下幾個方面綜合考慮:4、環保浸沒液冷的冷卻液推薦氟化液,它的綜合熱性能優秀,并且有非常好的兼容性和可靠性,缺點是價格昂貴,并且需要關注當地的環保法規。噴淋式液冷是用低溫冷卻液直接噴淋IT組件的發熱元件,吸熱后的高溫冷卻液換熱后再次循環進入服務器噴淋,整個過程中無相變。它和浸沒式液冷一樣也屬于接觸式液冷,差異在于噴淋式加強了對流換熱。噴淋式液冷的實物圖及原理圖如下圖3-5:亞太區智算中心液冷應用現狀與技術演進白皮書一次側冷水一次側冷水二次側冷卻液噴淋式與單相浸沒式液冷比較類似,可以把它當作一種特殊形式的浸沒液冷,因此噴淋式可以采用與單相浸沒一樣的冷卻液。三種熱捕獲技術都有各自的優缺點及適用場景,我們從以下這些維度進行比較,見表3-3:冷板式浸沒式噴淋式單相冷板兩相冷板單相浸沒兩相浸沒主要優點兼容度高技術成熟、產業鏈齊全兩相式水不進服務器高散熱能力&能效靜音節省冷卻液精準冷卻局限性泄漏問題需風冷補償工作壓力高控制難度大材料兼容性承重要求高系統密封性成本高材料兼容性技術小眾散熱能力中中-高高最高高pPUE1.05-1.151.05-1.101.05-1.10可維護性優秀一般一般CAPEX$SS-SS$OPEX熱回收潛力一般較高較高高較高成熟度★★★應用案例最多較少較多較少非常少應用場景較大規模智算中心舊數據中心改造較小規模智算中心超算、教育、科研小型高熱數據中心液冷技術在進行方案選擇時,還需要重點考慮服務器的側的條件,通過服務器側的具體信息反推基礎設施側采用何種液冷技術。液冷的熱交換主要通過CDU(CoolantDistributionUnit)即冷量分配單元來實現。作為連接一次側和二次側的“橋梁”,CDU中包含熱交換模塊、泵模塊、過濾模塊、補液模塊、監測模塊、控制模塊等,這些模塊集成在一起,實現以下三項功能:3、冷卻液監測&處理亞太區智算中心液冷應用現狀與技術演進白皮書CDU的換熱方式描述是在CDU中換熱的二次側和一次側工質。如前文所述,二次側的工質分為單相L(Liquid)和兩相R(Refrigerant)。一次側的工質有三種:A(Air),L(Liquid),R(Refrigerant)。CDU按照換熱方式分類如下見表3-4:表3-4CDU換熱方式分類二次側冷卻液一次側工質CDU類型換熱方式LLL2L單相液冷的熱量傳遞給冷卻水AL2A單相液冷的熱量傳遞給機房內的空氣RL2R單相液冷的熱量傳遞給制冷劑RLR2L兩相液冷的熱量傳遞給冷卻水AR2A兩相液冷的熱量傳遞給機房內的空氣RR2R兩相液冷的熱量傳遞給制冷劑CDU的安裝方式CDU的安裝方式不僅決定了它的安裝位置,同時也決定了它的容量和所帶末端的數量。可分為機架式(分布式)和機柜式(集中式)。兩者的原理圖如下圖3-6:機柜1機柜1服務器服務器服務器機架式/分布式CDU一次側冷水二次側冷卻液機柜n機柜CDU兩種形式分別對應不同的場景,對比如下表3-5:項目機架式/分布式機柜式/集中式安裝方式高度一般為4U,安裝于機柜內入列或者安裝在單獨的房間部署方式只為所在機柜提供制冷能力為多臺機柜提供制冷能力冷量范圍100kW以內200kW-1MW+接管復雜度二次側管路簡單二次側管路復雜冗余度低,冗余難度大高,可N+X冗余成本/kW高低適用場景中小型數據中心,快速部署大型數據中心,規模部署液冷架構的冷源有多種方案可供選擇。選擇冷源前,要確定一次側的供水溫定義了一次側冷水的溫度等級,如下表3-6:當水溫較高且當地氣候條件好,可以完全利用自然冷卻系統,而當水溫較低時,一般就需要利用機械冷卻系統。還有一種情況比較特殊:部分老舊機房也會有智算需求,因此要對它們進行液冷改造,但普遍存在的問題是現場無法新增一套供液冷使用的冷源,所以只能將原有的精密空調作為冷源。密空調自然冷卻系統。亞太區智算中心液冷應用現狀與技術演進白皮書自然冷源系統可以分為:開式冷卻塔、閉式冷卻塔、干冷器、泵驅兩相系統。開式冷卻塔系統:開式冷卻塔在各種制冷場景下都被廣泛使用。它的優點是散熱效率高、占地面積小并且價格便宜。缺點是WUE高、運行水質差,因此在液冷系統中使用時需要在冷塔的出水口增加板換和泵組,避免CDU板換結垢。系統原理圖如下圖3-7:回開式冷卻塔CDU開式冷卻塔泵o圖3-7開式冷卻塔系統工作原理圖閉式冷卻塔系統:閉式冷卻塔由內循環和外循環組成,內循環向系統提供冷卻水,它是一個封閉的系統,所以水質比較好,不需要增加板換,WUE也會低于開式冷卻塔。缺點是價格昂貴且體積大。系統原理圖如下圖3-8:CDU泵圖3-8閉式冷卻塔系統工作原理圖干冷器系統:干冷器即干式冷卻器,它的管內是冷卻液,與環境空氣直接換熱,工作過程沒有消耗水。優點是WUE為0(或非常低),價格便宜。缺點是換熱效率較低,CHINATELECOM對空氣質量和環境溫度有較高要求。干冷器也可以配置水噴淋系統以增強在高溫季節的換熱能力。系統原理圖如下圖3-9:CDU泵圖3-9干冷器工作原理圖泵驅兩相系統:泵驅兩相系統主要由氟泵、冷凝器、儲液管組成,采用相變冷卻。優點是換熱效率高,不需要考慮防凍和水質處理。缺點是價格較高,維護復雜。該系統的冷凝器可以選擇風冷冷凝器或者蒸發式冷凝器,前者WUE為0,后者換熱效率高。系統原理圖如下圖3-10:泵驅相變系統風冷冷凝器氟泵氟泵圖3-10泵驅兩相系統工作原理圖除了以上這些自然冷源之外,還有一些比較高效的自然冷源,例如間接蒸發冷卻塔、干濕聯合式冷卻塔等。他們都是在上述自然冷源的基礎上進行的優化拓展,可以使用同樣的液冷架構。機械冷卻系統(帶自然冷)機械冷卻是指帶有壓縮機的直膨系統。該系統可以提供更加低溫的一次側冷亞太區智算中心液冷應用現狀與技術演進白皮書卻液,滿足液冷系統的進液要求,同時不受環境溫度的限制。在液冷系統的應用中,機械冷卻會加入自然冷模塊,從而提高全年能效比。可以分為風冷冷水機+水側自然冷系統,水冷冷水機+水側自然冷系統,磁懸浮相變+氟泵自然冷系統。該系統的常用配置是在風冷冷水機的基礎上配置一套干冷器或者器(可額外配置也可集成在冷機上),實現過渡季節的部分自然冷和寒冷季節的完全自然冷。冷器)或者非常低(絕熱冷卻器)。缺點是運行過程中容易受環境因素影響,對系統原理圖如下圖3-11:CDUCDU供水閥1之閥2干冷器風冷冷凝器蒸發器文閥3閥1狀態閥2狀態閥3狀態工作模式開啟關閉關閉機械冷關閉開啟關閉部分機械冷+部分自然冷關閉開啟開啟完全自然冷水冷冷水機+水側自然冷系統:該系統被廣泛的應用在冷凍水數據中心,它是在水冷冷水機的基礎上額外增加了一套板換組件從而實現自然冷源的利用。該系統的優點是制冷效率高,運行穩定,運維簡單。缺點是前期投資大,耗水量高。系統原理圖如下圖3-12:供水X-冷卻塔閥3N-X板換蒸發器冷凝器圖3-12水冷冷水機+水側自然冷系統工作原理圖通過調節閥1-4的狀態,可以分別實現機械冷、部分自然冷、完全自然冷。工作狀態如下表3-8:表3-8工作模式切換表開啟關閉關閉開啟機械冷關閉開啟開啟開啟部分機械冷+部分自然冷關閉開啟開啟關閉完全自然冷磁懸浮相變+氟泵自然冷系統該系統由磁懸浮壓縮機、氟泵、儲液罐、閥件、換熱器等部件組成。冷凝器可選擇干冷器或者蒸發式冷凝器,前者WUE低,后者能效高。該方案不使用水作為載冷劑,二是直接向CDU輸送制冷劑,對應的CDU類型為L2R或R2R。優點是換熱效率高,無油系統穩定性好。缺點是價格昂貴,維護難度比水系統大。亞太區智算中心液冷應用現狀與技術演進白皮書它有兩種運行模式:機械冷和氟泵自然冷。低溫時氟泵單獨工作,實現完全自然冷。系統原理圖如下圖3-13:磁懸浮壓縮機磁懸浮壓縮機蒸發式冷凝器廠儲液罐供液利用機房現有的精密空調作為液冷系統的冷源時,對應的CDU類型為L2A液冷改造類項目的限制條件較多,因此并不是每種熱捕獲形式都適用。目前冷板式液冷對原有機房的承重、機柜、服務器等兼容性最好,所以液冷改造項目以冷板式液冷為主。原理圖如下圖3-14:冷空氣機房冷空氣冷卻液冷卻液冷凝器液冷機柜CRAC液冷機柜冷源選擇建議中國電信」深知社CHINATELECOM本節的冷源選擇建議針對新建的液冷數據中心。選擇冷源時,需要從以下幾個方面綜合考慮:1、一次側供液溫度等級2、氣候條件(溫度、濕度、氣溫變化范圍等)3、水資源情況及WUE政策4、技術因素(能效、可靠性、冷卻介質等)5、經濟因素(初投資&運行成本)6、其他因素(建設周期、可擴展性、建筑形式等)本文中所涉及的冷源選擇建議如下圖3-15:一次側供水溫度等級一次側供水溫度等級結合當地氣象參數W17W27W32W40W45W+機械冷源(帶自然冷)自然冷源水資源豐富水資源匱乏水資源豐富水資源匱乏成本優先能效優先成本優先能效優先成本優先WUE優先成本優先能效優先磁懸浮相變+氟泵自然冷(蒸發式冷凝器)開式冷卻塔閉式冷卻塔干冷器泵驅相變磁懸浮相變+氟泵自然冷(風冷冷凝器)冷風冷冷水機冷圖3-15冷源選擇建議需注意:一次側供液溫度與當地氣象參數相關聯,同樣的供液等級在不同地區的冷源形式可能不同。3.5液冷架構分類亞太區智算中心液冷應用現狀與技術演進白皮書液冷系統的三個核心部分組合在一起可以形成多種液冷架構。熱捕獲形式中,噴淋式液冷的應用案例太少,未形成完整的產業鏈。因此,液冷架構還是以冷板式和浸沒式為主,可以歸納為下表中的8種架構,見表3-9:序號冷源熱捕獲①機械冷源冷板式機柜式②機架式③浸沒式機柜式④機架式⑤自然冷源冷板式機柜式⑥機架式⑦浸沒式機柜式⑧機架式邊界條件冷源環溫高&供液溫度低環溫低&供液溫度高CDU大規模部署快速化部署熱捕獲兼容性高&成本低PUE低&高性能計算①環溫高&供液溫度低兼容性高&成本低大規模部署②快速化部署③PUE低&高性能計算大規模部署④快速化部署⑤環溫低&供液溫度高兼容性高&成本低大規模部署⑥快速化部署⑦PUE低&高性能計算大規模部署⑧快速化部署亞太區智算中心液冷應用現狀與技術演進白皮書第四章、風液混合制冷架構的特點分析4.1風液融合是智算中心液冷應用的必由之路根據Uptime的研究報告,見圖4-1,當前絕大部分數據中心的液冷方案還是以冷板式為主。因此,現階段需要重點關注冷板式液冷。如前文所述,冷板式液冷主要解決服務器中大功率部件的散熱問題,這部分的發熱量約占服務器總發熱量的50%-85%,其余部分的散熱仍要依靠傳統的風冷形式。WaterWater-cooledcoldplates64%FullFullimmersionUPTIMEINSTITUTECoOLINGSYSYEMSSURVEY2024圖4-1各項液冷技術應用占比這種同時使用液冷和風冷為服務器散熱的方式稱為風液融合。前面已經描述了液冷架構,風液融合架構只需要在液冷架構的基礎上增加風冷部分即可。4.2常見的風液融合架構風液融合架構可以歸納為三大部分:二次側的液冷和風冷部分以及一次側冷源。其中液冷部分是確定的,風冷部分和冷源有多種變化。根據液冷與風冷是否共用同一套冷源,可以將該架構分為風液同源架構和風液獨立架構兩種類型。風液同源架構中國電信」深知社CHINATELECOM風液同源架構按照冷源和風冷部分的不同組合,可以分為冷卻塔+動態雙冷源架構、冷水主機+冷凍水末端架構、磁懸浮相變系統+熱管末端架構。冷卻塔+動態雙冷源架構該架構的室外側冷源使用冷卻塔(開式、閉式)或干冷器向二次側提供冷卻水。二次側的風冷部分采用動態雙冷源空調,它包含一套冷卻水系統和一套壓縮機系統。液冷為完全自然冷,風冷為部分自然冷。架構模型如下圖4-2:機房機房液冷機柜液冷機柜液冷機柜液冷機柜雙冷源空調室外側冷源冷卻塔設備間圖4-2冷卻塔+動態雙冷源架構雙冷源空調為彌漫式送風的大風墻,安裝在設備間中。當冷卻塔的供水溫度較低時,冷卻水盤管單獨工作;當冷卻塔供水溫度較高時,開啟壓縮機系統進行該架構當前應用案例較多,整個系統沒有冷水機,所以成本較低;并且采用分布式冷卻塔,可以有效避免單點故障。雙冷源空調安裝在設備間內,與機房內設備解耦,非常適合租賃型業務。冷水主機+冷凍水末端架構該架構的室外側冷源使用前文所述的帶有自然冷模塊的冷機(風冷冷機、水冷冷機),因此可以提供的水溫區間比較大。二次側風冷部分使用冷凍水末端,它不局限于大風墻這一種形式,還可以是列間、小風墻、背板等形式。架構模型如下圖4-3:亞太區智算中心液冷應用現狀與技術演進白皮書室外側冷源室外側冷源機房冷水主機(帶自然冷)列間/小風墻背板液冷機柜液冷機柜液冷機柜液冷機柜大風墻CDU與冷卻塔+雙冷源空調相比,該架構在室外側實現了“雙冷源”,冷機的壓縮機系統僅在環境溫度較高時才開啟。優點是該架構的末端非常靈活,有多種應用形式,可以適應更多的場景,例如液冷機柜的預制式一體方案等。缺點冷機的供水溫度要兼顧末端冷凍水空調,因此整體的能效會略低于冷卻塔+雙冷源的方案。該架構為全鏈路的冷水方案,空調使用水氟換熱器進行散熱,可以兼容雙冷源空調、水冷氟泵空調等制冷形式。液冷部分配置集成板換的水冷冷機,壓縮機只在需要時開啟,同時可提供比較寬的水溫區間。CHINATELECOM冷塔旦液冷機柜液冷機柜液冷機液冷機柜液冷機柜液冷機柜液冷機柜冷水主機(集成板換)圖4-4冷機+水冷DX空調架構隨著人工智能的快速發展,芯片的TDP也快速提高,根據OCP的研究,見圖4-5:到2030年,GPU芯片的TDP將達到1.5kW。更高的發熱量需要更低的冷卻液溫度,1.5kW發熱量對應的冷卻液溫度區間為20-40℃,為了應對芯片的快速迭代并保證制冷設備可長期使用,合理的冷卻液溫度是30℃,對應的一次側的供水溫度必然小于30℃。在這種情況下,使用冷機作為一次側冷源的優勢就非常明顯了,因為它在高溫季節仍可以提供比較低的供水溫度,而冷卻塔顯然無法做到。冷源側配備冷機能非常好的應對將來芯片功率的發展趨勢,從耐用性的角度而言,它是極佳的解決方案。因此,可以預測未來的液冷系統中,冷機組會成為必選項,以它作為冷源的風液同源架構也會得到更多的應用。芯片功率芯片功率VS冷卻液溫度20302029202820272026202520242023202220212020冷卻液溫度o40°年份0圖4-5OCP關于芯片功率與冷卻液溫度的研究磁懸浮相變系統+熱管末端架構該架構的室外側冷源使用帶有氟泵自然冷的磁懸浮相變系統,見圖4-6。二次側風冷部分使用熱管末端,可采用多種形式,例如:大風墻、小風墻、列間、室外側冷源室外側冷源B機房制冷劑磁懸浮相變系統(帶自然冷)背板B液冷機柜液冷機柜液冷機柜液冷機柜列間/小風墻大風墻圖4-6磁懸浮相變+熱管末端架構與前兩個架構相比,該系統沒有使用水作為載冷劑,而是直接將制冷劑輸送到CDU和末端空調,這樣可以減少換熱次數從而帶來更高的能效。同時也和冷機一樣可以提供更低的一次側供液溫度,但在成本和維護方面并不占優,所以目前的應用案例相對較少。風液同源架構分析:風液同源架構最大的優點是風液比可調,適配彈性部署。為50%,并且某一階段可能兩者混用甚至全部使用風冷服務器。因此,該類數據中心在設計階段就要明確一次側冷源是共享的,可同時兼容風冷和液冷,提供100%的制冷量。并且冷源可以與二次側末端一起調節,實現不同的風液比。除此之外,風液同源架構的一次側冷源在規模應用時,還需要實現分布式和一體化設計。這樣做的優點是可以支持小規模的分期建設,降低系統性風險,簡化現場布管和調試。風液獨立架構指的是風冷和液冷分別使用各自獨立的一次側冷源。現階段,液冷部分的一次側冷源通常使用冷卻塔(部分地區使用干冷器或冷機),該方案可同時兼顧能效和成本。風冷部分的選擇相對于風液同源架構更加靈活多樣,數據中心常用的空調類型:例如氟泵自然冷機組、冷凍水系統、間接蒸發冷機組、新風系統、風冷直膨空調都可以使用。風冷部分使用冷凍水系統架構模型,圖4-7:B機房B冷水主機液冷機柜冷卻塔液冷機柜液冷機柜柜CDU亞太區智算中心液冷應用現狀與技術演進白皮書該架構與傳統的數據中心的制冷方式最接近,成熟度高兼容性好,對機房建筑形式和設備維護都非常友好,控制更加簡單,運行更加平穩。缺點是管路復雜,成本高。間接蒸發冷機組機房Air液冷機柜液冷機液冷機柜液冷機柜液冷機柜液冷機柜冷卻塔旦交付周期大幅縮減。但是間接蒸發冷機組對建筑的層數有要求,一般不超過4風冷部分使用精密空調架構模型,圖4-9:房間級房間級行級液冷機柜馬B液冷機柜液冷機柜液冷機柜機房該架構的風冷部分技術成熟度高,不受水資源和建筑形式的限制,是種通用風液獨立架構分析:與風液同源架構相比,風液獨立架構對于需要彈性部署的數據中心并不適用,原因是該架構實現風液比可調的成本太高。高彈性機房的冷源總冷量可以通過下表4-1進行比較:表4-1不同架構的高彈性機房所需冷量風冷最大占比液冷最大占比冷源總冷量風液同源架構風液獨立架構對于業務明確的數據中心,風液比是相對固定的,此時風液獨立架構的優勢就很明顯:風冷與液冷部分完全解耦,可以因地制宜根據項目實際情況選擇最佳的風冷和液冷組合方案,能效和可靠性都得到提升。綜上所述,兩種架構都有各自適合的場景。對于業務不確定,需要彈性制冷同時,不論選擇哪種架構,室外側冷源都要進行分布式和一體化設計。前面兩節介紹了多種形式的風液融合架構,下面對它們的WUE、PUE和TCO進行對比,見表4-2。對比之前需明確的條件如下:2.一次側供液溫度35℃;3.冷凍水系統使用水冷冷機,磁懸浮系統使用蒸發式冷凝器,風液獨立架構4.液冷占比為50%-85%。亞太區智算中心液冷應用現狀與技術演進白皮書風液同源風液獨立液冷方案冷板式風冷方案冷卻塔+動態雙冷源水冷冷機磁浮相變+熱管末端間接蒸發冷冷凍水系統傳統精密空調WUE0.4-0.8A規范-2024》中關于PUE的分級。當使用風液融合架構時,可以達到最佳的ExcellentMinimum冷板式液冷的應用中,風液同源與獨立架構都有各自適合的場景,要針對項目的具體情況來選擇最佳的架構。綜合前文所述的內容,冷板式液冷的風液融合架構可以參考下圖4-1模塊化布局&模塊化布局&供液溫度低&末端靈活業務類型濕度適中大規模&通用中小規模冷卻塔+動態冷機+冷凍水末端磁懸浮相變+熱管末端冷板液冷+間接蒸發冷冷板液冷+冷冷板液冷+精獨立架構同源架構固定業務需要注意的是架構的選擇要靈活,需根據實際情況具體分析。例如業務是固定的,但現場空間有限或者想要簡化系統從而縮短工期,也可以考慮使用同源架典型智算中心液冷應用場景的選擇分析智算中心是Al時代最主要的計算力生產中心,它能夠以強大算力驅動AI模型對數據進行深度加工,源源不斷產生各種智慧計算解決方案,并通過網絡以云服務形式供應給組織及個人。在第三章和第四章,我們分析了不同的液冷技術、液冷系統方案和風液混合液冷架構。從分析中我們發現,不同的方案和架構都有其特點和適合的場景。在實際應用中,我們需要根據實際的項目的環境條件、業務需求和運營目標,選擇合適的架構。構的選型。大型智算中心通常配備數千到數萬臺高性能服務器,具備PFlops(每秒千萬億次浮點運算)級別或更高的計算能力,能夠滿足復雜的智能計算需求。它通常采用先進的計算架構和硬件設備,如高性能計算集群、大規模存儲系統以及高速網絡等,以確保計算任務的高效執行。大型智算中心對業務的連續性有非常高的要求,并且在部署上具有一定的靈活性,能夠根據客戶需求和場景進行定制化服務。同時,它需要具備支持多種計算模式和架構靈活切換和擴展的能力。大型智算中心主要服務于人工智能、大數據分析、深度學習等需要強大智能計算支持的領域。除了AI領域外,還廣泛應用于物聯網、工業互聯網等新興領域,并與更多行業深度融合,如醫療、交通等。由于高性能計算設備(如GPU和AI加速器)產生的熱量遠超傳統服務器,風冷系統的冷卻效率有限,因此液冷方式成為最佳選擇。如前文所述,冷板式液冷具有更高的兼容性和成熟度,因此可以作為大規模應用的優選方案。參考第三章和第四章的內容,液冷架構分為熱捕獲、CDU、冷源三個部分,而冷板式液冷需要風冷進行補充,又分為風液同源和獨立兩種類型。設計時可以分兩步來確定最終的架構:亞太區智算中心液冷應用現狀與技術演進白皮書一:先羅列出所有的已知條件,然后根據這些條件分別對每個部分進行選型,最后將這些部分組合起來,對照第三章架構表中的①-⑧,就可以得到最合適的液冷架構。二:根據業務類型,確定風液同源或獨立架構,然后選擇合適的風冷方案與之配合。我們以東南亞地區為例,一次側供液溫度35℃,各部分盡量選擇能效高、成本適中、技術成熟的方案。選擇冷源時要綜合分析:從一次側供液溫度的角度考慮,選擇冷卻塔即可;從制冷設備的長期使用和風冷末端靈活性考慮,帶自然冷的水冷冷機則更合適。步驟一,見圖5-1:選型結果選型結果水冷冷機(帶自然冷)或(集中式)限定條件東南亞地區熱捕獲架構①或⑤冷源步驟二,圖5-2:水冷冷機(帶自然冷)冷卻塔+水冷冷機風冷末端冷凍水末端冷凍水末端風液架構同源獨立業務類型彈性業務固定業務圖5-2風液融合架構選型經過以上兩個步驟,就完成了風液融合架構的搭建,架構模型如下:風液同源方案,見圖5-3:機房大風墻BAir柜液冷機柜液冷機柜液冷機柜柜液冷機柜液冷機柜水冷冷機(帶水側自然冷)圖5-3風液同源方案架構圖風液獨立方案,見圖5-4:亞太區智算中心液冷應用現狀與技術演進白皮書水冷冷機(帶水側自然冷)水冷冷機(帶水側自然冷)大風墻Air液冷機柜CDU液冷機柜液冷機柜液冷機柜圖5-4風液獨立方案架構圖兩種方案的風冷末端都推薦大風墻,它可以安裝在設備間內,實現與機房設備的解耦。中小型智算中心的特點中小型智算中心通常規模較小,一般配備數十到數百臺服務器,包含有限的計算資源、存儲資源和網絡資源。以高性能計算為基礎,融合深度學習、機器學習等先進算法,專注于處理大規模、復雜的數據分析和智能決策任務。相較于大型智算中心,中小型智算中心在部署上更加靈活,能夠根據客戶需求和場景進行定制化服務。在快速變化的市場環境中,它能夠更快地響應客戶需求,提供及時的技術支持和解決方案。中小型智算中心更側重于滿足特定行業或場景下的計算需求。例如為醫療、零售等領域提供定制化的解決方案。另外在部分高性能計算領域,如教育及科研基本都以中小型智算中心為主。中小型智算中心的液冷架構冷板式液冷同樣適用于中小型智算中心,但是相比于大型智算中心,它對液冷技術的兼容性和成熟度的要求略低一些,并且高性能計算的發熱量非常大,因此浸沒式液冷也是一個不錯的選擇。根據中小型智算中心的特點,液冷架構應該實現靈活高效、系統簡單、快速部署、“一鍵開機”等要求。中國電信」深知社CHINATELECOM我們仍然按照前文所述的兩個步驟來搭建液冷架構,以東南亞地區為例,一次側供液溫度35℃。步驟一,見圖5-5:分類熱捕獲冷源CDU限定條件中小規模的高性能計算東南亞地區供液溫度中小規模快速化部署選型結果單相冷板式單相浸沒式水冷冷機(帶自然冷)或冷卻塔機架式(分布式)架構②⑧圖5-5中小型數據中心液冷架構選型步驟二:浸沒式液冷方案,見圖5-6:浸沒式為100%全液冷,不需要風冷進行補充,因此架構相對簡單一些,冷源選用冷卻塔即可。推薦采用一體式TANK,它已經將CDU內置,工程現場只需要一些簡單的操作。機房冷卻塔回一體式TANKCDU一體式TANKCDU一體式TANK一體式TANKCDU圖5-6浸沒式液冷方案亞太區智算中心液冷應用現狀與技術演進白皮書冷板式液冷方案,見圖5-7:冷板式液冷應用在中小型智算中心時,為了實現快速部署、簡化系統、降低工程量等要求,應盡量將風冷部分與液冷部分融合在一起。風液共用同一冷源,極大地簡化現場管路。一體化機柜將風冷和液冷集成在一起。背板空調安裝在機架上,負責風冷部分,它所需的水溫較低,需采用機械冷源。該方案高度預制化,可以實現快速部署、“一鍵開機”等功能,因此優先推薦該方案。背板背板一背板背板一體化機柜服務器服務器服務器一體化機柜服務器服務器服務器服務器服務器水冷冷機(帶水側自然冷)服務器水冷冷機(帶水側自然冷)機架式機架式CDU圖5-7預制一體化液冷方案液冷系統的預制化亞太區智算中心液冷應用現狀與技術演進白皮書智算中心與液冷技術的應用,除了新技術的引入以外也對智算中心的建設、部署和工程提出了新挑戰。特別是在芯片昂貴、產品技術新、行業工程經驗不足的情況下,客戶希望的越來越快的交付時間和運營方希望的高質量之間存在越來越多的矛盾和挑戰。在此情形下,液冷系統預制化越來越成為一種流行的選擇。本章會從數據中心的預制化發展開始,闡述液冷系統預制化的形成、分系統形態和產品特征。年液冷市場規模為86.3億元,相比上一年同比增長達26.2%,高于全球2個百分點,連續三年保持20%以上的高速增長。預計到2026年,中國液冷數據中心市6.2冷源預制化方案預制化集成冷站是將傳統的冷水機組機房系統進行有機整合,集冷水機組、冷水輸配及水處理系統、冷卻水輸配及水處理系統、換熱站、動力系統、集中控制系統于一體的高效冷水機房系統,具有高效集成、節能綠色、管理及維護成本低等特點,相比裝配式冷站,集成度更高。預制化集成冷站的形式主要有集裝箱中國電信」深知社式、方艙式。集裝箱式根據項目情況和氣候條件可以安裝在室內,也可以安裝在室外。具體可細分為單元式預制集裝箱集成冷站模式和組合式預制集裝箱集成冷站模式。單元式預制集裝箱集成冷站(見圖6-1)一般可根據不同的冷量將其劃分為三類:類型一單元制冷量350RT以下,類型二400~600RT,類型三700~1800RT;類型一和類型二拼接方式為獨立式,類型三拼接方式可以水平及垂直疊放。制冷主機板式換熱器冷水泵圖6-1單元式預制集裝箱集成冷站組合式預制集裝箱模式(見圖6-2)一般可分為三種類型,類型一:冷機模塊+板式換熱器模塊+管路切換模塊+水泵模塊,此模式的缺點是維護空間相對比較狹小,后期運營維護稍有不便;類型二:冷機模塊+板式換熱器模塊+水泵模塊;類型三:主機模塊+板換水泵模塊+管道模塊+檢修模塊。圖6-2組合式預制集裝箱集成冷站方艙式具體可以分為室內方艙及室外方艙,室內方艙(見圖6-3)是由管路撬塊、單體設備撬塊等組成,相應撬塊可以直接吊裝過來,完成對接就可以交付;室外方艙(見圖6-4)是由冷源模組、水力模組、蓄冷罐、冷站控制室等組成。亞太區智算中心液冷應用現狀與技術演進白皮書圖6-3室內方艙集成冷站圖6-4室外方艙集成冷站一體化冷源一體化冷源是高度集成化的產品,它將冷卻塔、水泵、加藥裝置、定壓補水裝置等集成在一起,現場只需完成接電和通水即可運行,其中一體化冷源類型有閉式冷卻塔、開式冷卻塔、間接蒸發冷卻冷水機組。一體化冷源在冷板式液冷同源架構動態雙冷源系統(見圖6-5)中有較好的應用。現階段維諦技術、曙光數創等均推出有應對冷板式液冷的一體化冷源解決方案。二次例二次例特通道DOF一DOFDDF冷酒道一體化冷源1一體化冷2xRc一次側管網熱耐道空調河冷通通機房圖6-5冷板式液冷一體化冷源(動態雙冷源)系統對于間接蒸發冷卻一體化冷源(見圖6-6)是利用間接蒸發冷卻技術產出低要求。目前,間接蒸發冷卻技術結合板式液冷系統,在廣東(高溫高濕地區)、浙江(華東地區)、山西(華北地區)均有實現全年100%自然冷卻的應用案例。一體化冷源的核心就是用一套自然冷卻的冷源,來解決整個數據中心的風冷和液冷的所有冷卻需求,從而讓一套大環網整體去帶動風側的精密空調和液冷側CDU,無論是風側的空調還是液冷側CDU它們的換熱冷源都來自于一套一次側系統,這樣大大簡化了數據中心的管理復雜度,另外在數據中心建設時可以一次性地按照整個數據中心的規劃容量建設好一套匹配電力容量的全冷量自然冷源,或者至少可以先把大的管路環網先建好,然后后面再分批分期建設冷卻塔和水泵。此外,因為要搭載冷板式液冷服務器,因此一定要建一套自然冷卻的系統,而且在可預見的未來液風比肯定會越來越高,風冷的冷量需求占比將越小,一體化冷源系統中風液比例可以靈活調節,且可以實現彈性部署。對于大型數據中心通常分期建設,并且要嚴格控制系統性風險,采用分布式一體化冷源的小顆粒度設計也可以支持小模塊分期建設和擴展,降低系統性風險。目前一體化液冷冷機柜產品按照液冷形式可分為冷板式液冷機柜及單相浸沒式液冷機柜,分別介紹如下。一體化冷板式液冷機柜(見圖6-7)以單個機柜為單位,采用模塊化設計理亞太區智算中心液冷應用現狀與技術演進白皮書化液冷機柜作為液冷設備的載體,每個設備之間用液冷專用軟管進行連接,用來TTManifold管路圖6-7一體化冷板式液冷冷機柜示意圖一體化單項浸沒式液冷機柜(見圖6-8),采用單項浸沒式液冷技術,將發熱電子元器件如芯片、主板、內存條、硬板等直接浸泡在絕緣、化學惰性的冷卻液中,通過循環的冷卻液將電子元器件產生的熱量帶走,因發熱元器件冷卻均勻度更好,大幅提高了傳熱效率。同時內置了監控模塊,對液冷機柜中的電力及運行環境實時監控,針對運行狀況實施實時控制,以及針對各個機柜的進出流量進行控制。一次CDU供液采用集中供液方案,滿足集中換熱的同時又可單獨于運維;二次側供、回液管路與機柜之間可采用法蘭鏈接,管路上需設置閥門,確保機柜與一次側管路之間可以拆卸維護,供回路可采用雙進雙出的管路設計。冷卻液循環管路及接頭應具有良好的密封性和兼容性,在系統使用壽命周期內不產生腐蝕、漏液等潛在風險,機柜側管路可采用高分子材料或無縫鋼管等材質。TankTank1Tank2Tank3Tank4couCDU圖6-8一體化單項浸沒式液冷機柜供液示意圖液冷微模塊液冷微模塊產品(見圖6-9)集成風冷、液冷、供配電、機柜、氣流遏制、監控、照明、布線等子系統,各子系統標準化、智能化程度高,獨立運行,聯合管理,將復雜的液冷工程,變為簡潔的模塊化產品,可通過模塊化設計、工廠預制,從而減少數據中心設計和運維成本,并能實現部署速度提升50%。現有液冷微模塊產品制冷系統采用冷板式液冷,滿足高散熱量、高功率密度場景需求。液冷機柜CDU液冷機柜Manifold圖6-9液冷微模塊產品6.4冷板式液冷集裝箱冷板式液冷集裝箱(見圖6-10)是一種采用液冷制冷系統+輔助風冷制冷系統,集成冷板式IT設備,單機柜電功率可達20kW~50kW的集裝箱數據中心解決方案。主要由集裝箱結構系統、供配電系統、制冷系統(液冷系統+輔助風冷系統)、液冷服務器機柜系統、消防系統、安防及動環監控系統等組成。冷板式液冷集裝箱是一款集高密性、節能性和獨立性的邊緣數據中心產品,可以滿足嚴苛的戶外環境運行條件,具備經濟靈活、快速部署、按需建設等多方面優勢。目前標準集裝箱規格有20尺、40尺、45尺,非標尺寸可根據項目不同進行定制化設計。以某品牌45尺冷板式集裝箱為例進行構成剖析,此款產品尺寸13716*3000*3600mm(W*D*H),單機柜平均功耗20kW,單模塊可放置6個液冷機柜,單模塊最大IT總功率≤120kW,模塊總電功率≤150kW,單機柜最大容納節點數24個。液冷配置兼容設計,一次側最高支持37℃進水(去離子水);一次側冷源N+1冗余備份,采用環形管路的形式,一次側循環泵(1+1)備份模式,液冷CDU(1+1)備份。二次側支持最高40℃供水(去離子水),二次側采用環形管路,減小二次側管路因泄露造成的故障顆粒度,冷源采用干冷器。亞太區智算中心液冷應用現狀與技術演進白皮書清控柜電池柜清控柜電池柜電池柜CD01|cDU2|RackCD01|cDU2|Rack圖6-10冷板式液冷集裝箱(45尺)亞太區智算中心液冷應用現狀與技術演進白皮書除新建智算中心需要引入液冷之外,傳統數據中心因為業務的變革也會逐步的開始承載高熱密度的智算業務。傳統的數據中心由于機柜功率密度較低,因此制冷方式普遍采用風冷形式。在當前節點,很多傳統數據中心都有液冷改造的需求,原因主要有兩點:1、業務調整:隨著Al時代的來臨,很多數據中心將業務類型逐步由通算升級為智算。算力的升級需要高效的液冷技術與之配合。統風能節省約20%-30%的能源,有效降低PUE,助力實現節能減碳目標。對于液冷改造項目,需要特別關注液冷技術與現有機房設備的兼容度

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論