【英偉達黃仁勛GTC】2025大會NVIDIAGTC2025演講核心要點AI工廠機器人革命與算力的未來_第1頁
【英偉達黃仁勛GTC】2025大會NVIDIAGTC2025演講核心要點AI工廠機器人革命與算力的未來_第2頁
【英偉達黃仁勛GTC】2025大會NVIDIAGTC2025演講核心要點AI工廠機器人革命與算力的未來_第3頁
【英偉達黃仁勛GTC】2025大會NVIDIAGTC2025演講核心要點AI工廠機器人革命與算力的未來_第4頁
【英偉達黃仁勛GTC】2025大會NVIDIAGTC2025演講核心要點AI工廠機器人革命與算力的未來_第5頁
已閱讀5頁,還剩43頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

本次大會的核心主題是人工智能的快速演進和日益普及,標志著人工智能正從生成式人工智能邁向推理和代理式人工智能的新階段。黃仁勛在演講中重點發布了一系列引人矚目的新產品和戰略合作,包括先進的硬件(BlackwellUltra、VeraRubin、RubinUltra、Feynman)、創新的軟件平臺(Dynamo、IsaacGR00TN1)以及重要的合作伙伴關系(通用汽車、谷歌DeepMind、迪士尼、甲骨文)。GTC作為NVIDIA展示其在塑造人工智能計算未來方面領導地位和愿景的關鍵平臺,再次凸顯了其戰略意義。本次主題演講對“代理式人工智能”的重點強調,預示著行業焦點正從簡單地生成內容轉向創建能夠進行推理、規劃和自主行動的人工智能系統預示著人工智能將在未來更深入地融入商業流程和日常生活,成為智能代理。此外,涵蓋硬件、軟件和合作伙伴關系的眾多發布,突顯了NVIDIA成為整個AI生態系統核心驅動力的雄心,而不僅僅是一個芯片供應商。初步的關鍵發布清單顯示了技術堆棧各個層面的重大進展,這種全面的方法表明NVIDIA的戰略是控制和影響人工智能發展的方向,從基礎設施到應用。黃仁勛還宣布通用汽車將采用NVIDIAAI、模擬和加速計算技術來開發下一代汽車、工廠和機器人。在機器人方面,英偉達還發布了Omniverse(物理AI的操作系統)、新一代世界基礎模型Cosmos、Newton(與DeepMind和DisneyResearch合作開發的物理引擎)以及人形機器人的通用基礎模型IsaacGrootN1并開源。在昨晚萬眾矚目的GTC2025大會上,英偉達創始人兼CEO黃仁勛向世界宣告了“AI工廠oBlackwell架構的效率也大幅4.AI“全棧”戰略:從芯片到軟件,構建o英偉達展示了其強大的CUDA-X庫生態系統,涵蓋了從物理學、生物學、到量子計算等各個科學領域,以及包括cuPy、cuLitho、Parabricks、MONAI、CUDF、Warp等海o英偉達強調“軟硬一體”的戰略,不僅提供強大的硬件,更提供豐富的軟件工具和平臺,降o英偉達正在與各行業巨頭合作,例如通用汽車、思科、T-Mobile等,推動各行業的智能化升歡迎來到GTC。真是了不起的一年。我們想在英偉達(NVIDIA)來做這件事,所以,通過人工智能的奇妙魔力,我們要把你帶到英偉達總部。我想我正在把你帶到英偉達總部。你覺得呢?這就是我們工作的地方。過去這一年太精彩了,我想讓你們知道,我現在站在這里是沒有演講稿,沒有提詞器,而且我得講很多內容。那就讓我們開始吧。首先,我要感謝所有贊助商,感謝所有與會的杰出人士。幾乎每一個行業都有人參加:醫療保健行業在這里、交通行業、零售行業,當然還有計算機行業——每一家計算機行業相關的企業都在這里。所以非常非常高興見到你們所有人,也感謝你們對大會的贊助。GTC的起點是GeForce一切都從GeForce開始。今天我在這里拿著一塊GeForce5090。5090,難以置信,距離我們開始研發GeForce已經過去25年了。25年以后,GeForce在全球都賣斷貨。這就是90,也就是Blackwell這一代產品。和4090相比,你看看它的體積縮小了30%,散熱效率提升了30%,性能也極其強大,幾乎無法相比。而這背后的原因就是人工智能。GeForce把CUDA帶給了世界,CUDA讓AI成為可能,而AI現在又回過頭來徹底變革了計算機圖形學。你現在看到的是實時計算機圖形,100%光線追蹤。每一個像素都經過了光線追蹤,然后人工智能推斷剩下的15個像素。想象一下:對于我們用數學方式真實渲染出的每一個像素,人工智能會推斷另外15個像素。它必須以極高的精度來完成這一過程,讓畫面看起來正確,而且還要在時間維度上保持準確,這意味著在向前或向后播放時——畢竟這是計算機圖形——畫面都必須在幀與幀之間保持時間上的穩定。真是不可思議。人工智能取得了非凡的進展僅僅過去10年而已。我們討論AI的時間稍長一些,但AI真正進入大眾視野大約是10年前的事情,最先從感知AI開始——計算機視覺和語音識別。然后是生成式(AI)。過去5年里,我們主要關注的是生成式AI,教會AI如何在不同模態之間進行轉換,比如文本到圖像、圖像到文本、文本到視頻、氨基酸到蛋白質、物性到化學物容。生成式AI從根本上改變了計算的方式——從“檢索式計算模型”變為了“生成式計算模型”。過去,我們幾乎所有工作都是預先創建內容、存儲多種版本,然后在需要時去獲取相應的版本。而現在,AI能理解上下文,理解我們在問什么,以及我們請求的含義,然后生成它所“理解”和“知道”的內容。如果需要,它還會檢索信息來補充理解,最后生成答案;不再僅僅是檢索數據,而是直接生成答案。這從根本上改變了計算的方式。在過去幾年里,計算的每一個層次都被徹底轉變。過去兩三年,出現了重大突破,也就是人工智能的根本性飛躍——我們稱之為“agenticAI”(具備自主性的AI)。agenticAI的意思是,AI擁有“主動性”(agency)。它能感知并理解當前環境的上下文,很重要的一點是它能進行推理,能思考如何回答或解決問題,還能制定并執行計劃。它可以使用工具,因為它現在理解多模態信息;它可以訪問網站,查看網站的文本和視頻格式,甚至可能播放視頻,然后從該網站學到內容,理解之后,再帶著這份新知識回來完成任務。agenticAI的基礎是推理,這在過去是非常新的能力。接下來的一波浪潮已經在發生,我們今天會重點討論——那就是機器人學。機器人由“物理AI”推動,而“物理AI”則是理解物理世界的AI。它能理解摩擦力、慣性、因果關系、物體的“永久性”——當它看到一個物體拐到拐角處并消失于視線之外,并不代表那個物體就從世界上消失了,只是暫時看不到而已。對物理世界、三維世界的這種理解將開辟AI的新紀元,我們稱之為“物理AI”,它將使機器人變得可行。每一個階段、每一波浪潮都為我們所有人帶來新的市場機會,讓更多新的合作伙伴加入GTC。因此,如今的GTC可以說是爆滿。想要容納更多人參與,恐怕我們得把圣何塞擴建了。我們正在努力,我們有足夠的土地來擴展圣何塞,好讓GTC越辦越大。我現在站在這里,希望你們能看見我所看到的景象。我們現在處在一個體育場里。去年是我們首次回歸線下,當時的場面就像一場搖滾音樂會,那次GTC被稱為AI界的“伍德斯托克”盛會。而今年它被稱為AI界的“超級碗”。唯一的區別在于,在這場“超級碗”里,每個人都是贏家。每年都有更多人加入,因為AI能解決更多行業、更多企業的各種有趣問題。今年我們會著重探討agenticAI和物理AI。三大核心問題:數據、訓練和擴展從本質上說,每一波、每個階段的AI,都涉及三大根本問題。第一,如何解決數據問題。這之所以重要,是因為AI是一種數據驅動的數據科學方法,需要用數據來學習,需要數字化的經驗來學習、獲取知識。第二,如何在沒有人工參與的情況下進行訓練。因為人工干預是有極限的,而我們想要AI能以超越人類的速度來學習,幾乎是實時的,而且規模要大到人類無法企及。所以第二個問題是:如何訓練模型。第三,如何進行擴展(scale)。怎樣找到一個算法,使得你提供越多的資源(不管是什么資源AI就變得越聰明。這被稱為“scalinglaw”(擴展定律)。過去這一年,幾乎整個世界在這方面都看走眼了。AI的計算需求及其擴展定律其實更具韌性,甚至可以說是超加速。由于agenticAI、由于推理的出現,如今我們所需的計算量比一年前的預期至少高出100倍。讓我們來解釋一下為什么。首先,從AI能做什么開始,逆推回去:agenticAI的核心是推理。我們現在已有能進行推理的AI,它能把問題分解為若干步驟。也許它會同時嘗試幾種方式來解決問題,然后選擇最佳答案;也許它會用不同的方法去求解同一個問題,最后進行結果一致性檢查;或者,它在得出答案后,還會把結果重新帶回方程檢查一遍,比如帶回二次方程看看是否真的是正確答案,而不是像以前那樣一次性隨便給出一個答案。兩年前,當我們開始使用ChatGPT時,雖然它已經非常神奇,但很多復雜問題或簡單問題它也經常答錯,這可以理解——它只做了一次性輸出。它根據預訓練數據(它在預訓練數據中看到或學到的東西)進行一次性“輸出”,就像隨口說出來一樣。而現在我們有了能逐步推理的AI,它利用“ChainofThought”(思維鏈)、取多種解法里最優的和一致性檢查等多種技術,一步一步地分解問題,進行推理。由此可以想見,AI所生成的token數量會急劇增多。AI的底層技術本質仍是根據上一個token來預測下一個token。不同的是,現在“下一個token”對應的是推理的某個步驟。AI先生成第一步的一連串token,然后把這一步的輸出再次輸入給AI,用來生成第二步、第三步、第四步的推理。這樣一來,AI不再只是一字一句地往外“吐”token,而是生成一大段文字來表示推理的步驟。最終產生的token量會大大增加,我會在稍后展示這一點。很輕松就可能高出過去的100倍。那么“100倍”具體意味著什么?也許是生成了100倍的token,如我剛才所說;或者,模型本身更復雜,只生成10倍的token,但我們如果想讓模型具備交互性、實時性,不想等它“思考”太久讓人失去耐心,我們就要把計算速度再提高10倍。這樣,10倍的token、10倍的速度,就相當于需要100倍的計算量。因此在接下來的演講中,你們會看到推理所需的計算量遠超以往。接下來的問題:如何教AI像我剛才描述的那樣進行推理?如何讓AI執行“chainofthought”?在訓練中,我們面臨兩個根本性難題:1)數據從哪里來?2)如何避免“人工參與”帶來的限制?因為人類能提供的示例數據是有限的。最近兩年最重大的突破就是“強化學習”和可驗證結果。也就是說,當AI一步一步地嘗試解決問題時,我們可以使用強化學習對它進行獎勵,讓它越做越好。舉例來說,人類歷史上已經解決了許多問題,我們知道答案,比如二次方程的解法,畢達哥拉斯定理,還有很多數學、幾何、邏輯以及科學定理。另外我們還有一些益智類游戲,能提供約子,讓AI有數以百計的機會去逐步求解。通過強化學習,它會不斷獲得獎勵,從而表現越來越好。因此,你把上百種不同的課題、幾百萬個不同的例子、再乘以上百次嘗試、而每一次嘗試都要生成數以萬計的token,把這一切加起來就達到了數萬億的token,用來訓練模型。現在有了強化學習,我們就能夠利用“合成數據生成”的方法,以類似“機器人”的方式來教AI。這兩方面的結合給整個行業帶來了巨大的計算挑戰,而你能看到整個行業也正在全力應對。Hopper與Blackwell:基礎設施的爆發式增長我接下來要展示的是Hopper的出貨量——僅限于四大CSP(云服務提供商):亞馬遜、Azure、GCP和OCI。這四大CSP擁有公共云業務。我說的還不包括任何AI公司、不包括初創企業、不包括企業級用戶,也不包括許多其他群體。僅僅這四家,能讓你對比Hopper的峰值出貨量和Blackwell(譯者注:NVIDIA新一代架構)在第一年出貨的對比數據。由此你可以看出,AI的確正在經歷一個拐點:它變得更強大、更具推理能力,也因此被更多人使用。你可以從ChatGPT的使用體驗看出來,現在每次打開ChatGPT,似乎等待時間都變長了,這反映了很多人在使用它,而且用得很有效。而訓練這些模型、在推理中使用這些模型所需的計算量也隨之飆升。僅僅在一年之內——而Blackwell剛開始出貨——你就能看到AI基礎設施的驚人增長。這種增長也體現在整個計算領域。這張圖里,紫色的部分是分析師們給出的預測:從現在到2030年,全球數據中心(包括CSP與企業數據中心等)的資本支出會出現大幅增長。我以前就說過,我預計數據中心的建設最終會達到萬億美元規模,而我非常確信我們很快會達成這一目標。這里有兩個動力在同時發生。第一,絕大多數增長很可能都是加速計算,我們早就知道通用計算已經走到盡頭,需要新的計算方式。全球正在經歷一場從“手動編寫軟件跑在通用CPU上”到“機器學習軟件跑在加速器和GPU上”的平臺轉變。以這種方式來進行計算,目前已經過了拐點,我們正看到數據中心建設的全面爆發。第二,大家也越來越認識到,軟件的未來需要資本投入。這是一個非常重大的理念轉變。過去我們的模式是:先編寫軟件,再把軟件放到計算機上運行。而未來,計算機本身會為軟件生成token。因此,這臺計算機更像是一臺“生成token的機器”,而不是簡單的“檢索文件的機器”。也就是從“檢索式計算”向“生成式計算”的轉變,從過去傳統方式建造數據中心,變為新的基礎設施形態。我把它稱為“AI工廠”,因為它只有一個功能,就是生成這些驚人的token,然后我們再把這些token重構成音樂、文本、視頻、研究數據、化學配方或者蛋白質……各種不同形式的信息。全世界不僅會建造更多數據中心,還會改變數據中心的構建方式。并非所有計算都只為AI,但一切都將被加速你們看到的這張幻燈片對我來說意義重大,因為多年來,你們一直在GTC上聽我介紹這些前,我們只有一張類似的幻燈片,上面列出一個又一個庫。你沒法單單只加速軟件,就像我們需要AI框架才能創建AI,然后對這些AI框架進行加速一樣;對于物理、生物、多物理場、量子物理等領域,我們也需要專門的庫和框架。我們稱之為CudaX庫,這些是各個科學領域的加速框架。首先介紹一下這個:Numpy是全球下載量最多、使用最廣泛的Python庫,去年下載量達4億次。cuNumeric可以在無需任何變動的情況下替換Numpy,所以如果你正在使用Numpy,可以試試cuNumeric,你會喜歡它。klitho是一個計算光刻庫。經過4年努力,我們把計算光刻整個流程都加速了。計算光刻是晶圓廠中的第二條生產線——第一條工廠制造晶圓,第二條則制造生產晶圓所需的信息。未來,每一家有工廠的企業都將擁有兩條工廠線:一條用來制造實體產品,另一條是用來制造數學和算法,也就是“AI工廠”。造車的公司會有一條生產汽車的工廠,還有一條生產車載AI的工廠;造智能音箱的,會有工廠負責制造音箱本體,另一條則負責生產智能音箱所用的AI。klitho就是我們的計算光刻庫。臺積電、三星、ASML以及相關合作伙伴,包括Synopsys、Mentor,都在支持這個項目。我們認為在未來5年內,每一個光刻掩模都會用到NVIDIACUDA來處理。Ariel是我們針對5G的庫,將GPU變成5G無線電。為什么不行呢?信號處理本就是我們的強項。有了這個之后,我們還能在上面疊加AI,稱為“AIRAN”。下一代無線電網絡會深度融入AI。為什么我們要受限于信息論?頻譜AI。cuOpt是用于數學優化的庫,幾乎各行各業都需要它,用于安排航班座位和航線、管理庫存和客戶、工廠勞動力調度、司機和乘客配對等等,都有多種約束和變量,需要在時間、收益、服務質量、資源利用率等方面做優化。我們英偉達也用它來做供應鏈管理。cuOpt非常強大,可以把過去需要數小時的工作降到幾秒鐘完成,這是很重要的,因為這樣我們就有足夠的時間去探索更龐大的空間。我們宣布要將cuOpt開源。幾乎所有人都在用Gurobi、IBMCPLEX或FICO等工具,我們和這些公司都有合作,業內對此非常興奮——我們即將為整個行業帶來大規模加速。PairBricks用于基因測序和基因分析;MONAI是全球領先的醫學影像庫;Earth-2是多物理場庫,用于在極高分辨率下預測局部天氣;cuQuantum和cudaQ則是量子計算相關的庫。我們在這屆GTC首次設置了“QuantumDay”,與幾乎所有量子生態系統玩家都有合作,幫助他們研究量子架構、量子算法,或者構建“經典+量子”異構體系,非常令人興奮。cuEquivariance、Tensor并行壓縮、量子化學……很多很多。這些就是在Cuda之上又構建了一層又一層的庫,整合進各種生態系統、軟件和基礎設施,最終實現AI。我這里還有一個新的要宣布:cuDSS,這是我們的稀疏求解器,對計算機輔助工程(CAE)相當重要。過去一年里發生了一件大事:我們和Cadence、Synopsys、ANSYS,還有一些做系統的公司進行了合作,使幾乎所有重要的EDA和CAE庫都能被加速。非常了不起。想想看,直到最近,英偉達還一直用運行在通用CPU上的那些超級慢的軟件來設計我們自己的加速計算機,因為我們自己沒有針對EDA的高效加速軟件。現在我們終于有了,所以整個行業在向加速計算邁進時,將被大幅提速。cuDF是一個面向結構化數據的DataFrame庫。我們現在已經實現了對Spark和Pandas的“零改動加速”。還有Warp,這是一款針對物理模擬的Python庫,用于Cuda加速,稍后我會有個重要公告。以上只是加速計算所需要的庫的一個縮影。加速計算不僅是Cuda,我們為Cuda感到驕傲,但如果沒有Cuda以及它龐大的裝機基礎,這些庫對開發者就毫無意義。使用這些庫的開發者首先能獲得驚人的加速和可擴展性;其次,因為現在Cuda的安裝基礎非常廣泛,幾乎每家云服務商、每個數據中心、每家計算機公司都提供Cuda,遍布全球。因此,你若使用這些庫,你的優秀軟件就能被所有人使用。至此,我們可以說加速計算已經過了“引爆點”,是Cuda帶來了這種可能。而這一切,也離不開在座各位以及整個生態系統的貢獻,這就是GTC的意義所在。為此,我們做了一個簡短的視頻送給你們。AI的開始AI的確是從云開始的,這是有道理的,因為AI需要基礎設施——這是“機器學習”。如果科學叫“機器學習”,那就需要“機器”來做這門科學。而云數據中心正好擁有所需的基礎設施,也匯聚了頂尖的計算機科學和研究力量,是AI在云端迅速騰飛的完美環境。云服務提供商(CSP)自然而然成為早期的主要陣地。但AI不會只局限在云端,它會遍地開花。接下來我們會從多個角度探討AI。云服務商當然喜歡我們的尖端技術,他們也喜歡我們擁有完整的“全棧”——因為加速計算如前所述,不是只有芯片,也不止有芯片和庫,還需要編程模型,以及在其之上各種復雜的軟件堆棧,每一層庫都像一個SQL(IBM在存儲計算領域革命性的東西)那樣重要。而在AI領域,這樣的庫更多,堆棧更加復雜。云服務商還喜歡這樣一點:NVIDIACUDA開發者也往往是云服務商的潛在客戶,因為他們最終要把軟件部署在云上面向世界,所以龐大的開發者生態對CSP至關重要。現在我們要把AI帶到世界的其他角落,而全世界在系統配置、操作環境、領域專用庫、用例等方面都有巨大差異。當AI進入企業、制造業、機器人、自駕駛汽車等等領域時,需求又會不同。還有一些新興的GPU云公司,大約20家左右,都是在NVIDIA崛起期間成立的,他們就干一件事:托管GPU,稱自己是“GPU云”。我們的優秀合作伙伴之一CoreWeave正準備上市,我們也為他們感到自豪。這些GPU云各有各的需求。我個人非常興奮的一個方向是邊緣端。今天我們宣布,思科、NVIDIA、T-Mobile(全球最大的電信公司之一)、Cerebras、ODC,將在美國構建一個面向無線電網絡的完整堆棧。這會成為我們宣布的第二條堆棧。這個全新的堆棧將AI帶到邊緣端。要知道,每年大約有上千億美元投資在無線網絡和相關數據中心中,而我堅信,這些網絡的未來毫無疑問是融合AI的加速計算。AI可以更好地適應不斷變化的無線環境和流量狀態,毫無疑問我們會用強化學習去實現這一點。MassiveMIMO(大規模多入多出)本質上就像一個巨大的無線機器人,有了AI,自然能在信號調度上做得更好。我們當然會提供相關功能,AI肯定也會革新通信領域。你看AI是怎么改變視頻處理的,也看到了我之前講的對3D圖形的改變,同理可得我們也會這么做在邊緣端。我對今天宣布的這件事感到非常興奮:T-Mobile、Cisco、Nvidia、Cerebras、ODC將合作構建一整套堆棧。AI將進入各行各業:自動駕駛為例AI會進入所有行業,早期比較典型的是自動駕駛。自從我見到AlexNet(我們在計算機視覺領域已耕耘許久那一刻讓我深受啟發、熱血沸騰,于是我們全力投入自駕車技術研發。到現在我們已經做了10多年。我們構建的技術幾乎被每一家自動駕駛公司采用——他們可能只用我們的數據中心產品(例如Tesla在數據中心里用很多NVIDIAGPU或者像Waymo、WovenPlanet既在數據中心也在車端使用NVIDIA的計算機;也有極少數只在車端使用,但非常罕見。也有人把我們整個軟件棧都用上了。我們和汽車行業的合作方式是非常靈活的,看車企需求如何。我們提供三種計算機:訓練計算機、仿真計算機、自動駕駛計算機,以及它們之上的整套軟件棧、模型和算法。這和我們在前面其他行業所做的一樣。“今天,我非常高興宣布,通用汽車(GM)已經選擇與英偉達(NVIDIA)合作,打造他們未來的自動駕駛車隊。自動駕駛車輛的時代已經到來。我們期待與GM一起在三個領域中運用AI:第一,用于制造——他們可以革新生產方式;第二,用于企業級——他們可以徹底改變他們的工作模式、設計車輛和模擬車輛的方式;第三,用于車載——我們將為GM構建并部署AI基礎設施。對此我非常興奮。“Halos”。要實現安全,需要從芯片到系統,再到系統軟件、算法以及方法論都整合到位。從多樣性到確保多樣性監控,再到透明性與可解釋性,所有這些不同的理念都必須深度嵌入到系統及軟件開發的每一個環節。我相信我們是世界上第一家讓每一行代碼都通過安全評估的公司——有700萬行代碼接受了安全評估。不僅是代碼,我們的芯片、系統、系統軟件以及算法都要進行第三方安全評估,對方會逐行審查代碼,確認系統是在保證多樣性、透明性和可解釋性的前提下設計的。我們還在這個過程中提交了一千多份專利。在本屆GTC中,我也非常鼓勵你們去參加“HalosWorkshop”,親眼看看為了確保未來汽車既安全又能實現自動駕駛,需要整合多少不同的要素。我為此感到非常自豪,但它往往很少被討論,所以這一次我就多花些時間來介紹一下,這就是NVIDIAHalos。你們都見過自動駕駛汽車,比如Waymo的Robo-Taxi非常了不起。我們做了一個視頻來展示我們所用的一些技術,如何解決數據、訓練、多樣性等問題,以便利用AI的神奇力量,去創造新的AI。NVIDIA正通過Omniverse和Cosmos來加速自動駕駛系統的AI開發。Cosmos的預測與推理功能,支持‘AI-first’的自動駕駛系統,從端到端實現可訓練。它通過新的開發方法——模型蒸餾、閉環訓練以及合成數據生成來完成。首先,模型蒸餾將Cosmos的駕駛知識,轉換為一個較小、更快的學生模型來在車內推理。教師的策略模型會示范出最佳的行駛軌跡,而學生模型會通過多次迭代來學習,直到它的表現幾乎與教師模型一樣好。蒸餾過程為策略模型提供了初步的‘引導’,但復雜場景仍需進Omniverse的物理級神經重建,讓模型在模擬環境中進行閉環駕駛。然后在這些場景的不同變體中測試模型的軌跡生成能力。Cosmos的行為評估器會對模型生成的駕駛行為進行打分,從而衡量其性能。新生成的場景及其評估結果,匯集成龐大的數據集,用于閉環訓練,幫助自動駕駛系統更穩健地應對復雜場景。最后,3D合成數據生成技術能讓自動駕駛系統適應多樣化環境。從日志數據中,Omniverse通過融合地圖和圖像來構建高精度的四維駕駛環境,并生成真實世界的數字孿生,結合對每個像素的語義分割來輔助Cosmos。Cosmos會生成準確而多樣化的場景,以擴大訓練數據規模,進一步縮小仿真與現實的差距。Omniverse和Cosmos讓自動駕駛系統得以學習、適應并實現智能駕駛,為更安全的出行奠定基礎。”NVIDIA是做這件事的完美人選,天吶,這幾乎就是我們的宿命:用AI來再創造AI。你在視頻中看到的那些技術,和我們帶給你的數字孿生世界的技術很像,數據中心(DataCenters)讓我們談談數據中心吧。Blackwell已經全面進入量產,這就是它的樣子。實在是不可思議。不少人看到它會覺得:對我們來說,這是一種美的盛景,對嗎?這怎么可能不美呢?因為我們在計算機體系結構上實現了一個根本轉變。三年前,我給你們看過一個版本,叫做“GraceHopper”,那個系統叫“Ranger”。Ranger的體積大概是這個屏幕一半寬度——那是全球首個支持NVLink32的系統。三年前我們展示Ranger時,它實在太大了,但方向完全正確。我們想解決的是“scaleup”的問題。分布式計算(scaleout)是讓很多計算機協同工作來解決一個巨大的問題;但我們仍然需要“scaleup”,在擴展(scaleout)之前先進行縱向擴展(scaleup)。二者都很重要,但你想先把單機/單系統的規模盡量擴大,然后再做分布式擴展。然而,“scaleup”十分艱難,沒有什么捷徑可走。你不可能像Hadoop那樣,把一堆普通服務器用網絡連起來,搞一個龐大的分布式存儲計算。Hadoop在過去確實帶來了革命,讓超大規模數據中心能夠用通用硬件處理海量數據,但現在我們要解決的問題要復雜得多。如果繼續用那種方式,只會過度消耗電力和能耗,深度學習也就不會出現。因此我們必須先“scaleup”。我不會把它舉起來,因為它有70磅重。它是我們上一代的系統架構“HGX”。HGX徹底革新了我們的計算方式,也革新了人工智能:它含有8塊GPU,每一塊GPU就像手里這個(指向手中的BlackwellGPU模組)。這里面實際上是兩個BlackwellGPU封裝在一塊芯片上。所以,一臺HGX里有8塊這樣的東西。它們通過“NVLink8”互聯。而這上面還會連接一個CPU機箱(CPUshelf里面有雙路CPU,用PCIe和HGX相連。然后再通過InfiniBand把很多這樣的節點連起來,就形成了一臺所謂的“AI超級計算機(AIsupercomputer)”。這就是過去我們的方法——通過這樣的方式先做“scaleup”,再做分布式擴展(scaleout)。可我們還想把“scaleup”做得更大。我曾提到Ranger:它把HGX再擴充了四倍,于是就有了NVLink32,只不過整機體積太大了。我們必須對NVLink及其拓撲進行重大革新,才能繼續擴大規模。做法是:把NVLink交換機(switch)拆分出來過去,NVLink交換機嵌在主板里,但我們現在要把它拆出來,放到機架中央。它是全球性能最強的交換機,使得所有GPU可以同時以全帶寬互聯。我們把這些交換機拆分出來,集中放在機架中央。有18個這樣的交換機,分布在9個交換機托盤中。然后,計算節點就位于機架的四周相對于交換機而言,這樣我們就能把這一切都做成“完全液冷”。通過液冷,我們可以在一個機架里塞進所有這些計算節點。這就是整個行業的大轉變:從集成式NVLink轉向解耦式NVLink,從風冷轉向液冷,從每臺計算機大約6萬個元件變為每個機架60萬個元件、功耗達120千瓦,全部采用液冷。結果就是——我們可以在一個機架里實現1exaFLOPS的計算能力。太不可思議了!新的計算節點這就是新的計算節點,相當于以前那臺8-GPU的HGX,再加上CPU的合體。現在它就能裝進一個機架里。整機重量達3000磅,約有5000根線纜,長度差不多有兩英里,以及60萬個元件……大概相當于20輛汽車的零件數;這些都組合到一起成為一臺超級計算機。我們的目標就是這樣:做徹底的“scaleup”,現在的形態大致長這樣。我們理想中想造一講,這是不可能一次性實現的。所以我們通過“解耦”的方式,將Grace、Blackwell和NVLink-72拆分到多個機架上。結果就是,我們達成了極致的“scaleup”。這是有史以來最極端的“scaleup”方案。它帶來的運算量、內存帶寬都達到了驚人的水平——570TB/s,所有指標都以T計量,一切都是萬億級別。這臺機器擁有1exaFLOPS(即10^18次浮點運算/秒)級別的運算能力。我們之所以要做到這樣極致的規模,是為了應對一項極端困難的任務。很多人原本以為這是一件很簡單的事,但實際上它是終極級別的計算難題,這就是——推理(inference)。原因很簡單,推理就意味著“生成token”,而生成token的“工廠”(AI工廠)能帶來收益和利潤,也可能帶來損失。所以這座“工廠”必須以極高的效率和極大的性能來運行。因為工廠的效率會直接影響服務質量(QoS)、收入以及盈利能力。坐標軸有兩個:.橫軸(x-axis)是“tokenspersecond”。我們在使用ChatGPT時,輸入一個prompt,然后輸出的是一個個token(標記最終被映射成文本單詞。一個英文單詞可能對應多個token,也有的token只代表字母組合如“th”,它可以在多種單詞中出現,比如“the”、“them”、“theory”、“theatrics”等。.縱軸(y-axis)是“響應延遲”(latency)或者說“響應速度”。我們已經了解到,如果想讓AI更聰明,就需要生成更多token——它可能需要進行推理token、一致性檢查token、思考多種方案以選擇最佳方案的token,這些都屬于“思考”過程。它也可能自我質疑,像我們人一樣“一邊想一邊碎碎念”。生成的token越多,AI表現就越聰明。但若AI回答問題太慢,用戶就會失去耐心,不會再用它。這就像網絡搜索一樣,有個用戶可接受的最大時延。因此,這兩個指標是相互沖突的:一方面,你想讓AI為單個用戶生成更多token——也就是“tokenspersecond”越大越好,以實現更智能的回答;另一方面,你還想在同樣的硬件里“服務更多的用戶”,提高整座“工廠”的吞吐量(throughput),以獲得更高收益。這時就不得不做“batching”,批量處理很多用戶的請求。但一旦批處理,就會增加等待時間,這影響單個用戶的響應速度。沒有任何系統能在這兩個維度上同時做到絕對完美,你理想地想要一個“曲線”盡可能在右上方覆蓋更大面積——因為橫縱乘積越大,代表你同時兼顧了響應速度和吞吐量。要實現這樣的目標,你得具備海量的FLOPS、極高的帶寬和內存訪問能力,以及適當的編程模型來把這些資源用起來。這正是我們這臺機器所擅長的:更多FLOPS、更大內存、更高帶寬、最優架構、最好的能效比,以及能協調所有資源的軟件棧。下面這個演示會讓你更直觀地感受我說的內容。演示:“傳統大型語言模型(LLM)可以捕捉到基礎知識,而‘推理模型’則可以通過思考Token來解決更復雜的問題。在這里,我們給了模型一個prompt,要求根據一些條件來為婚宴安排座位,比如某些傳統習俗、如何拍照更好看,以及哪些家人之間存在矛盾需要分開坐等。傳統的LLM只用不到500個Token就很快給出答案,但它在安排來賓座位時犯了錯誤。而推理模型則使用了8000多個Token來思考,最終給出了正確答案。它甚至需要一個牧師來調解整個局面。”就像大家都知道的,如果你要安排300人的婚宴座位,并讓所有人都滿意,這是只有AI或者“丈母娘”才能解決的問題(笑)。可你看到的例子里,R1模型(指更高級的推理模型)要進行反復思考。傳統LLM使用了439個Token,一次性給出答案,確實很快,但錯誤百出,相當于是439個Token白費。而推理模型用了約8600個Token,一步步推理、不斷驗證,最后才得出正確答案。它所需的計算量也大得多。更深入的推理需要更復雜的并行與調度在展示一些結果前,我還要解釋點別的。你看Blackwell這種規模龐大的系統,它依賴“MVLink72”架構,把所有GPU通過NVLink串起來,形成一個統一整體。但模型本身動輒擁有幾千億、幾萬億參數,比如R1有6800億參數,更大的下一代模型甚至可能達到數萬億參數。我們要把這些數萬億參數分割后分發到一大堆GPU上,可能使用張量并行:把模型中的某一層拆分成多個GPU協同運行;也可能使用流水線并行:把模型的各層按順序分配到不同GPU;還可能采用專家并行:把不同的專家分配到不同的GPU。這三種并行方式(張量并行、流水線并行、專家并行)可以組合出無數種方案,而具體選擇哪一種取決于模型、工作負載以及當時的環境。有時你要優化延遲(Iatency有時要優化吞吐量,也可能在推理時使用各種批處理技巧。總之,這套AI工廠的軟件操作系統極其復雜。有一個關鍵觀察點:當所有GPU都通過NVLink72構成統一整體后,我們就能在內部靈活調度“推理”的不同階段,而這些階段需求不同。我們通常把推理分成兩個階段:.9預填充9階段(思考階段):AI不斷從上下文中攝入信息(包括用戶輸入、提示、可能還會查詢PDF或網站,甚至觀看視頻把所有內容都整合進模型。這個過程計算量很大,但生成的Token并不多。.9解碼9階段(解碼階段):AI根據模型的所有參數和上下文來預測下一個Token。由于語言模型每次只能預測一個Token,要把整個模型(數萬億參數)從HBM(高帶寬存儲器)讀入,再生成一個Token,然后再放回去作為輸入,再來一次……持續很多次,才能輸出完整結果。這對帶寬以及FLOPS)提出了極高要求。舉例來說,如果模型規模是好幾萬億參數,意味著你每次解碼,都要讀取TB級的數據來輸出一個Token。而在那個演示里,推理模型輸出了8600多個Token,也就意味著對模型參數進行了8600多次的讀取-計算-輸出循環。這也解釋了為何我們要用NVLink:它能把所有GPU連接成一個巨大的邏輯GPU,讓我們在同一個地址空間里處理海量數據。另外,當推理分為9預填充9和9解碼9兩大階段時,我們可以在NVLink的統一架構下進行靈活調度:如果接下來大部分工作是思考或檢索信息,就多分配GPU給9預填充9;如果是成千上萬用戶一起聊天、需要大量輸出Token,則把更多GPU用于9解碼9。像我平時做研究時,會給AI一個超長的指令,讓它去94個網站搜集資料,讀完、總結,再給我寫一篇報告。這個過程很耗9預填充9計算。而當幾百萬人在和ChatGPT聊天時,又是9解碼9計算最繁重。根據工作負載的不同,我們可能會決定在解碼階段分配更多的GPU,或者在預填階段分配更多的GPU。這種動態分配的過程非常復雜。我剛剛描述了管線并行、張量并行、專家并行、飛行批處理、解耦推理工作負載管理,以及所謂的鍵值緩存——我得把它路由到正確的GPU,還要管理所有存儲層級。那部分軟件復雜得令人難以置信。所以,今天我們宣布了NVIDIADynamo。NVIDIADynamo會處理以上所有事情,它本質上就是一座“AI工廠”的操作系統。過去,我們在數據中心里運行的操作系統可能是VMware之類的,我們會用它來編排整個企業級IT負載,事實上現在我們仍在這樣做,我們是VMware的大用戶。但未來,應用本身不再只是企業級IT,而是“智能體”(agents操作系統也不再像VMware,而會類似于Dynamo。它并不是跑在傳統的數據中心上,而是跑在所謂的“AI工廠”之上。我們之所以把它稱為Dynamo,是有原因的。正如你們所知,“Dynamo(發電機)”是引爆上一次工業革命的第一臺儀器。那次工業革命是關于能源的:水進來,電出來,這太神奇了。你知道,水或者燃料進入后,變成蒸汽,再輸出一種無形卻極具價值的東西(電)。后來又花了大約80年才進化到交流電,但Dynamo正是這一切的開端。所以,我們決定把這套復雜到極致的軟件命名為NVIDIADynamo。它是開源的,我們非常高興有許多合作伙伴與我們一起研究它。其中我最喜歡的合作伙伴之一就是Perplexity,他們在這個領域做了非常具有革命性的工作,而且他們的創始人Aran人也很好。總之,這就是我們與Perplexity攜手開發的東西,真的非常棒。好,現在要等我們大規模建好這些基礎設施,但與此同時,我們已經進行了大量深入的模擬。我們用超級計算機來模擬我們的超級計算機,這很合理。下面我要向你們展示我們所說的這一切帶來的好處。請記住之前那張“工廠”圖表:橫軸(x-axis)表示“用戶體驗的tokenspersecond”,縱軸(y-axis)表示“整座工廠的tokenspersecond吞吐量”。你希望你的AI單體能夠產出更多token(讓它更聰明),也希望整個工廠的產量也很高。下面我們來看一看Hopper(架構)的情況。Hopper可以為每個用戶大約產生100tokens/s。這里指的是一臺包含8塊GPU的系統,通過InfiniBand連接。為了公平起見,我們把它歸一化到“每兆瓦的tokenspersecond”。也就是說,如果我們有一個1兆瓦的數據中心(其實在AI工廠里并不是很大的規模,但我們就取1兆瓦方便對比它可以在單用戶模式下做到100tokens/s,然后在這個點上(黃仁勛指著圖它能給你提供每秒100,000個token;或者,如果你愿意等很久,讓系統做極限“批處理”,它可以達到250萬tokens/s。大家理解嗎?好,如果在極端批處理場景下就是這樣。大家點點頭,因為這部分可能有些燒腦。你們知道,每次GTC都有“入場門檻”——你們得接受一點數學的折磨。只有在NVIDIA大會上,你才會被數學折磨。Hopper可以產出2.5milliontokens/s,這是在1兆瓦的功耗下實現的。那250萬tokens/s怎么轉化成經濟效益呢?假如說ChatGPT是10美元/百萬token(只是舉例那么在極端批處理的情況下,這臺“工廠”每秒就可能做到250萬tokens/s乘以10美元/百萬tokens=每秒25美元嗎?或者每秒250美元?我們先別在意具體數字精確度,核心是:如果你的AI工廠能更快地產出token,那么你的服務質量更好,也能賺到更多錢。但如果你為了讓AI回答更聰明生產更多token、更多推理步驟,你就需要更多計算資源,導致整體吞吐量下降。這是一種合理的平衡。上面的曲線正是我們努力要改善的目標。我要再次強調,Hopper本來就是目前最快的計算機,推動了很多革命性進展。那我們如何進一步提升它呢?首先,我們采用Blackwell架構和NVLink8(同一個Blackwell芯片運算更強,晶體管更多,整體規模更大。然后我們還采用了一種新精度:不是簡簡單單的4-bit浮點,但用4-bit浮點做量化能在同樣的運算里耗更少能量,從而做更多事。要知道,每個數據中心以后都會碰到“功率極限”。你能獲得多少收入,很大程度上取決于你能使用多少能源。和很多行業類似,我們也進入了一個“能耗受限”的時代。因此,你必須要構建盡可能節能高效的計算架構。接下來,我們再把規模擴大到NVLink72,大家應該能理解這個思路。看下面這張圖對比一.NVLink72+FP4+我們全新的Dynamo.還有一個是沒有Dynamo的配置我們體系結構緊密結合,現在再加上Dynamo,性能進一步拉升。Dynamo對Hopper也會有幫助,但對Blackwell的幫助特別巨大。現在你會看到,我在圖表中標出了兩個閃亮的區域——那大概就是“最大效率點(max-Q)”。你在尋找在高吞吐與高智能之間的平衡,那些點就是你“工廠”最優化的工作區間。如果我們把那兩個點連線對比,會發現Blackwell遠遠優于Hopper。要記住,這里比較的是“相同功耗”(ISOPower也就是所謂的終極摩爾定律。過去,摩爾定律在講晶體管數量的提升,這里我們是在同樣能耗的前提下做對比,結果居然是一代就提升25倍。那簡直不可思議。在圖表上,你還能看到一個彩虹一樣的曲線,那就是所有可能Pareto前沿。在那條前沿曲線下有無數種組合——工作拆分、分片策略、并行方式,各種可行配置。我們最終找到了最優解,也就是Pareto前沿。根據曲線上的顏色,你可以看出在不同配置下的表現。這非常清楚地說明,你需要一個“可編程的”且“同構的”架構,因為負載在前沿曲線的不同部分有著截然不同的需求。在曲線上某個頂部點,配置可能是“專家并行8+批大小3000+解聚關閉+Dynamo關閉”;中間可能是“專家并行64+26%上下文+批大小64+Dynamo開啟”,等等;文”……也就是說,整臺計算機的配置會在這整個范圍內變化。這就是為什么我們說需要一個可編程的、通用的架構。接著我們來看這個演示:在輸入序列長度為1000token、輸出長度為2000token的測試場景中,Blackwell性能是Hopper的40倍。哇,簡直不可思議。我之前說過一句話:當Blackwell大規模出貨后,你送Hopper別人都不會要。這就是我指的意思,這也很合理。當然,如果你現在還打算買Hopper也沒關系,但是我是公司最大的“營收終結者”(,我的銷售團隊可能會想:“別這樣說啊!”但是你們懂的,當技術以如此驚人的速度迭代,如果你確實在建一個“AI工廠”,就應該投資在對的產品上。把它放到一個更大的視角看就明白了。舉個例子,這是一座100兆瓦的“AI工廠”。.如果用Hopper,需要45,000顆GPUDIE、1400個機架,能產出大約3億token/s。.如果用Blackwell,那就需要……呃……(黃仁勛做出手勢)好像就只要8000顆GPUDIE,就能達到同樣產量。(現場笑聲)你可能想:“這聽上去我用不了那么多GPU了?”我們并不是想賣得更少,而是想告訴你,這是一個更優解。“買得越多省得越多”,何況現在是“買得越多,賺得越多”嘛(笑)。總之,現在的一切都圍繞“AI工廠”這個概念來思考。我們一直談芯片,但實際上要先想好怎么做“scaleup”,最后才會決定你買多少芯片。我現在想讓你看看一座實際AI工廠的樣子,但它實在太復雜了——僅僅一個機架就有60萬個元件、重達3000磅。如果你要連上幾十個甚至上百個這樣的機架,就更是龐然大物。所以我們開始在Omniverse里做“數據中心數字孿生(digitaltwinofadatacenter)”,也就是先構建一座虛擬的AI工廠,再去建實體的。NVIDIA的路線圖(Roadmap)現在我得加快節奏了,因為我要跟你們講的東西實在太多。如果我說得太快,不是因為我不關心你們,而是信息量確實很大。先說一下我們的路線圖(roadmap)。現在我們已經全面量產Blackwell,世界各地的計算機制造商都在大規模出貨這種令人驚艷的機器。我對此深感欣慰并心懷感激——大家為過渡到這套新架構都付出了巨大努力。然后在今年下半年,我們會平穩過渡到升級版,也就是BlackwellUltra+NVLink72。它具備原先1.5倍的FLOPs,擁有新的attention指令,內存也提升了1.5倍,非常有用,比如放KVcache;網絡帶寬也擴大了2倍左右。所以,基于相同的架構,我們會順利推出這個升級版本,稱之為BlackwellUltra,預計在今年下半年。為什么我們要在這個場合宣布這樣的產品?一般情況下,別的公司宣布時大家可能會覺得“好啊,下一步是什么?”。事實上,這正是我們希望你們的反應。原因在于:我們現在要建的是出,而是必須經過土地、電力、資金、工程團隊等各方面的長遠計劃。所以我們必須給你們一個2~3年的預告,而不是等到某個月份突然說“嘿,下個月又有一個超棒的新系統”。我會舉個例子讓你們看為什么要這樣做。再往后一年,我們會推出以著名天文學家命名的新系統,她的名字是VeraRubin。她發現了“暗物質”,對,就是VeraRubin。她非常了不起。她這套新平臺里,CPU也變成新的,比Grace性能提高兩倍、內存更多、帶寬更大,但功耗只增加一點點(可能是50瓦的CPU真是厲害。新的GPU代號是CX9,還有新的智能網卡SmartNIC、NVLink6,以及新的內存(比如HBM4)。一切都是全新的,只保留現有的機箱和底層基礎設施,這樣我們在一個方向上冒險升級時,不會同時冒險太多層面。我們稱之為VeraRubin+NVLink144,將在2026年下半年問世。需要做個小小的澄清:Blackwell芯片實際上包含兩個GPUDIE,但我們過去把它當做“一塊GPU”來稱呼,這在NVLink命名上造成了混亂。今后,我說“NVLink144”指的是連接144個GPUDIE——它們可能封裝在一起,也可能分開封裝。總之,今后每個GPUDIE就叫一個GPU,所以當我們說“Rubin+NVLink144”,就是可以連接144塊GPUDIE。將來具體是怎么封裝的,會視情況而定。有了VeraRubin+NVLink144,接下來又為第二年(也就是再往后一年)做好了鋪墊,稱之為RubinUltra。你們應該驚呼一下(笑)。對,這就是VeraRubinUltra,預計在2027年下半年。這是NVLink576極致擴展。每個機架600kW,包含250萬個元件——哦不,250萬組件。當然還會有更多GPU,總之各項指標又提升一個數量級。14倍更多的FLOPs,就是15exaFLOPs,而現在Blackwell的規模只有1exaFLOPS。我之前提到過可以做15exaFLOPs的“scale-up”。內存帶寬達到4.6PB/s(4600TB/s這還是單機架內部的統一帶寬,并不是整體聚合帶寬的概念。當然還會有全新的NVLink交換芯片和CX9等一系列新組件。請注意,這里用了16顆GPUDIE打包封裝在一個封裝中,極大規模的NVLink。我給你們比對一下。比如說,這就是你們現在正在量產、部署的GraceBlackwell看上去像個小板子,對嗎?而Rubin比它大很多。我們是等比例放置,讓你們感受一下它的體積差別。這就是為什么我們總是強調——在開始做大規模分布式(scaleout)之前,你先得做極致的“scaleup”。然后我們再用一些讓你驚艷的技術進行分布式擴展。性能演進:Hopper→Blackwell→Rubin現在我們可以看看算力(scale-upFLOPs)的進化:.Hopper=1×.Blackwell=68×.Rubin=900×如果你把它和功率結合起來,也就是我前面說的“在可接受的能耗下,最大化FLOPs×帶寬”。你會發現Rubin將帶來更低的成本、更高的效率。所以,這就是NVIDIA未來幾年的路線圖,大約一年一次的迭代節奏,就像時鐘滴答一樣穩定。講完縱向擴展(scaleup)的路,我們再來看橫向擴展(scaleout)要怎么做。我們之前介紹過,MVLink負責縱向擴展,而InfiniBand與SpectrumX負責橫向擴展。大家都知道我們進入以太網領域,因為我們想讓以太網擁有跟InfiniBand類似的性能特性,比如阻塞控制、超低延遲,以及把我們計算結構的軟件優勢帶進去,于是就有了SpectrumX。現在的表現非常出色,比如我們用SpectrumX構建了“Colossus”,那是全球最大的單體GPU集群之一,表現非常好。SpectrumX可以說是大獲成功。我對另一個方向也很興奮:最大的企業網絡廠商將把SpectrumX整合進他們的產品線,幫助全球的企業“AI化”。我們現在用的是CX8、CX7,馬上要有CX8、CX9。隨著將來要到VeraRubin的時代,我們希望能擴展到成千上萬、甚至幾十萬塊GPUDIE。但是,如果要把幾十萬塊GPUDIE做成大規模橫向擴展,數據中心大到體育場大小,那么機架之間就需要遠距離連線,不再能完全使用銅纜。銅纜只適合在機架內或1~2米以內,這樣能保持高可靠、低成本、能效高;但在機房更大范圍內,我們就需要“硅光”技術。硅光長久以來的挑戰是收發模塊功耗太大,需要把電信號轉換為光信號,需要串行器/解串器,以及好幾級轉換,每一個步驟都在消耗能源讓我們展示一下這個東西。首先,我們宣布了英偉達首個“共封裝硅光方案”,世界上首個1.6Tb/s的CPO(co-packagedoptics)。它基于微環諧振調制器(MicroRingResonatorModulator,MRM)技術,這是我們在TSMC工藝上與眾多技術伙伴合作多年的成果。它非常瘋狂,極具創新。之所以選用MRM(微環諧振調制器是因為它在功耗密度和能效方面都優于現有的馬赫-曾德爾調制器,后者目前主要用于遠距離電信或數據中心間通信。之前,在數據中心互聯或城域/長途光纖里,MoZ(馬赫-曾德爾)足夠用,因為對帶寬和密度的要求相對沒那么高。但如今隨著我們要在機架間、機房內都高密度部署光模塊,這就需要更高的集成度與更低功耗,而MRM更適合這種規模化的場景。好吧,這就是要讓‘推理模式’上線的時刻了。要把這些線整理好其實沒那么容易,它們又細又繞。好了,讓我們看看這個家伙(展示某個光學收發器)。你看,這一塊功耗是30瓦。你要記住,30瓦。如果你大批量采購,每個可能要1000美元。這里有一個插頭,這邊(指一端)是電連接,那邊(指另一端)是光學連接。所以,光纖會從黃色這邊進來;你把它插到交換機上,這一頭是電接口,里面包含了收發器、激光器,采用了被稱為“馬赫-曾德爾(Mach-Zehnder)”的技術,十分先進。我們用它把GPU連接到交換機,再連接到下一級交換機,然后再下一層交換機,最終到另一塊GPU。例如,如果我們有10萬塊GPU,那么就要有10萬個這種光纖接口;然后再加上……呃,還要另一端從交換機到交換機,也有10萬個。最后去連接另一端Nick(網絡接口卡)。如果我們有25萬塊GPU,就得再加一級交換機。因此,每塊GPU(25萬塊GPU時)都會擁有6個收發器端口,也就是6個這樣的插頭。這樣的話,每塊GPU光是這些收發器就要消耗180瓦(30瓦×6),每塊GPU還要6000美元的成本(1000美元×6)。所以,問題來了:我們如何把GPU的規模擴展到上百萬塊?如果我們有100萬塊GPU,每塊都有6個收發器,那就等于600萬個收發器,總耗電是600萬×30瓦=1.8×10^8瓦,也就是180兆瓦(megawatt)純粹用來“搬運信號”,并沒有做任何計算。正如我之前說的,能源是我們最重要的資源,一切最終都和能耗掛鉤。若這些收發器吃掉180兆瓦,那就意味著我們的客戶(或我們自己的)數據中心能夠用于實際計算(從而創造收益)的電力減少了180兆瓦。于是,我們必須想辦法解決這個問題。這就是我們所做的驚人的發明:我們開發了全球首款采用微環諧振調制器(MRM,MicroRingResonatorModulator)的硅光技術,它看起來是這樣的(展示示意圖)。你會看到有一個小小的波導,當光在這個環形結構里共振時,它會控制波導的反射率,通過吸收或者透過來改變光的強度,從而把連續激光束轉換成0和1,這就是其神奇之處。然后,光子集成芯片與電子集成芯片疊加在一起,再加上大量的微透鏡,以及所謂的光纖陣列等多層技術——全部都是在臺積電(TSMC)采用他們稱作COUPE的制程里制造,并用3DCoWoS(或3DCoP類封裝技術)來封裝。我們攜手眾多技術伙伴一起研發了很多年,才打造出如此不可思議的器件。讓我們看段視頻來了解下這項技術的奇跡吧。然后,這些器件會被做成交換機,比如我們的InfiniBand交換機。硅芯片的工作狀況非常好。我們會在今年下半年(指2025下半年)出貨這款硅光交換機;到明年下半年(指2026下半年)會出貨整套SpectrumX解決方案。之所以能成功,是因為我們當初選擇了MRM,也承擔了過去五年里的巨大技術風險,提交了數百項專利,還將這些專利授權給我們的合作伙伴來共同生產。如今,我們就有能力把硅光和共封裝技術集成在一起,直接把光纖插進交換機里,而無需傳統收發器模塊。這樣,每臺交換機就能做到512個端口,這在其他方式下幾乎不可能實現。因此,這為我們擴展到十幾萬塊乃至上百萬塊GPU奠定了基礎。你們可以想象一下,在一個數據中心里,我們能節省幾十兆瓦的能耗。比如說,你可以省下60兆瓦,這相當于10個RubinUltra機架(每個6兆瓦或者更多(如果一個RubinUltra機架是600kW,則60兆瓦就是100個機架的電力)。我們就能把這些電能重新投入到Rubin超級計算機本身。這就是我們的完整路線圖:每年一次,每年都會帶來一次新架構,兩年一個大的產品線迭代,每次都實現數量級的提升。我們會分步承擔硅片、網絡、機箱等方面的風險,從而推動整個行業不斷前進,朝著這些不可思議的技術邁進。至于名字,“VeraRubin”用于下一代架構,向發現暗物質的VeraRubin致敬。她非常了不起,我還要感謝她的孫子孫女們也在現場,見證我們對她的崇高敬意。再下一代,我們會以“Feyn

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論