汽車與零部件行業AI%2b汽車智能化系列之三:充分重視OEM自研智駕芯片的長期意義_第1頁
汽車與零部件行業AI%2b汽車智能化系列之三:充分重視OEM自研智駕芯片的長期意義_第2頁
汽車與零部件行業AI%2b汽車智能化系列之三:充分重視OEM自研智駕芯片的長期意義_第3頁
汽車與零部件行業AI%2b汽車智能化系列之三:充分重視OEM自研智駕芯片的長期意義_第4頁
汽車與零部件行業AI%2b汽車智能化系列之三:充分重視OEM自研智駕芯片的長期意義_第5頁
已閱讀5頁,還剩67頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

核心結論總結2?

當我們在談自研智駕芯片時,我們究竟在談什么?【設計芯片IP核+開發適配底軟/工具鏈】芯片按類可分為計算、存儲、信號轉換以及片上集成SoC四大類,AI芯片是指在SoC基礎上針對人工智能算法做特殊加速處理的芯片。智駕領域AI芯片主要用于云端/邊緣端兩種場景:1)用于智駕邊緣端應用的AI芯片一般涵蓋AI計算單元NPU、CPU\GPU\ISP\IO接口等必要組成部分,更強調各IP核之間的綜合協調能力;2)用于云端訓練應用的AI芯片則更加強調NPU\GPU的計算能力,對于功耗、各部分間協調等要求較低。OEM及三方供應商自研智駕芯片多指:自身設計SoC系統中NPU/ISP等核心IP核,外采EDA軟件形成邏輯電路,并由其他廠商完成制造以及封裝環節;同時為更好調用芯片算子算力,玩家需適配性開發底軟(計算架構)以及SDK工具鏈,便于編輯落地上層應用。為進一步強化智駕“數據閉環”對于軟硬件迭代效率的意義,少部分玩家或將自研云端超算芯片?

OEM自研設計AI智駕芯片必要性以及可行性如何?【邊緣端芯片必要性及可行性強】必要性:自研邊緣端芯片有足夠性價比,云端芯片短期必要性較低。智能駕駛產品力的競爭短期看產品體驗,中期看迭代效率,長期看降本能力;邊緣端芯片自研有效影響中期軟件算法相對成熟后的迭代效率(軟件能否充分發揮芯片算力),并直接決定長期智駕全系統降本能力,因此強勢OEM當前投資芯片自研在未來3~5年內有足夠超額回報,有望形成正循環。云端芯片短期性能要求單一,僅針對AI算力,中長期影響軟硬件提升速率,但前期投入較大,當前性價比較低。可行性:OEM玩家自研邊緣段智駕芯片可行性較強。參照地平線、黑芝麻智能發展歷程,從團隊規模、資金投入以及研發耗時三重角度分析,千人研發規模;30~50億研發投入;2~3年耗時可支持智駕芯片全自研以及配套解決方案落地;特斯拉2016年啟動智駕芯片項目,2019年正式搭載上車,國內強勢OEM自研芯片以及配套底軟具備相當可行性。核心結論總結3?

第三方Tier玩家自研智駕芯片以及底軟,打法及成效如何?【高舉高打最強音&自下而上差異化第一類:英偉達/華為,云端&邊緣端軟硬件全覆蓋。1)英偉達:高舉高打,打造硬件算力&軟件生態最強音。公司依托全球絕對領先GPU芯片&CUDA異構計算架構,軟硬件配合構筑高壁壘,汽車為其下游重要終端應用場景。以Hopper架構賦能的DGX高性能芯片布局超算中心,自研DPU芯片支持云端大規模數據傳輸,配合基于CUDA

的高性能算子庫和SDK

工具包,

支持數據訓練+

圖形渲染+

仿真模擬等,

并通過GPU+Grace

CPU組合形成SoC芯片,更好裁剪落地云端算法解決方案。2)華為:全面對標英偉達,賦能車企培育生態。硬件端,華為以昇騰310/910為基礎分別聚焦推理/訓練環節,310系列配合華為自研激光雷達等傳感器形成完整車身解決方案,910

NPU配合鯤鵬系列CPU打造Atlas云端服務器,提供最大20PFLOPS的解決方案;軟件端,華為對標英偉達CUDA開發CANN計算架構,盤古大模型賦能,MindStudio工具鏈支持完善第三方應用。軟硬件成套配合賦能國內弱勢OEM,更好培育自身智駕生態。第二類:高通/Mobileye/地平線,聚焦邊緣端軟硬件,自下而上差異化布局。1)高通:邊緣端智駕芯片&開發工具鏈全自研,發揮基盤業務優勢自研全芯片IP核,艙駕一體差異化向上突破,國內市場聯合創達/毫末/大疆等Tier1迅速入局,補足生態短板;2)Mobileye:依托L2智駕開發積累,由封閉黑盒逐步開放,SDK套件開發完善,聚焦低成本高效能視覺方案,國內聯合經緯恒潤加速發展;3)地平線:芯片架構持續優化,征程系列產品以自研BPU

AI計算核心,OpenExplorer算法工具鏈為支撐,以相對“低姿態”賦能國內OEM股東,協同進步。核心結論總結4?

特斯拉自研智駕云邊芯片,國內OEM舉旗跟進,布局智駕硬件。特斯拉全棧自研FSD智駕芯片,底層算法更好適配調用ASIC芯片算力,實現雙芯144TOPS算力即可對標英偉達雙芯508TOPS算力的智駕功能,同時根據自身軟件能力迭代持續優化硬件架構,保障行業領先。另外自研D1芯片支撐云端Dojo超算中心,強化AI計算+傳輸帶寬,AI算力全球領先;并自研訓練軟件棧,支持通用性計算語言的同時實現對神經網絡模型的自動調優和并行化國內OEM舉旗跟進自研。第一類:以頭部新勢力為代表,智駕邊緣端芯片全棧自研,蔚來對標英偉達Orin智駕芯片已發布;小鵬/理想積極布局,預計2025~2026年亮相;第二類:主流車企以戰投合作形式展開,吉利億咖通以及多OEM戰投地平線,進行產業鏈布局。?

投資建議:汽車AI智能化轉型大勢所趨,硬件為基石,看好布局智駕硬件的OEM長期競爭力。全行業加速智能化轉型,產業趨勢明確。下游OEM玩家+中游Tier供應商以及上游原材料廠家均加大對汽車智能化投入,大勢所趨;智駕核心環節【軟件+硬件+數據】均圍繞下游OEM展開,數據催化算法提效進而驅動硬件迭代。因此,以AI芯片為核心的智駕硬件是OEM中長期核心競爭力的重要構成,參考手機行業,核心硬件是玩家【成本控制能力+品牌護城河】的終局競爭要素國內OEM以軟件為先,硬件其次,加速進化。頭部新勢力玩家緊隨特斯拉引領本輪智駕技術變革,全自研智駕芯片有望于2025~2026年流片量產,構筑品牌核心競爭力以及產品重要賣點??春弥邱{頭部車企以及智能化增量零部件:1)華為系玩家【長安汽車+賽力斯+江淮汽車】,關注【北汽藍谷】;2)頭部新勢力【小鵬汽車+理想汽車】;3)加速轉型【吉利汽車+上汽集團+長城汽車+廣汽集團】;4)智能化核心增量零部件:域控制器(德賽西威+經緯恒潤+華陽集團+均勝電子等)+線控底盤(伯特利+耐世特+拓普集團等)。?

風險提示:智能駕駛相關技術迭代/產業政策出臺低于預期;華為/小鵬等車企新車銷量低于預期目錄一、如何看待OEM自研智駕芯片?二、第三方玩家自研智駕芯片成效如何?三、下游OEM玩家如何做?四、投資建議與風險提示一、如何看待OEM自研智駕芯片?芯片分類:四類主流芯片覆蓋市場不同應用場景四大主流芯片處理芯片片上系統(SoC)儲存器芯片數模轉換器CPU:中央處理器,負責執行指令、處理數據以及管理

計算機的運行GPU:處理圖形和圖像相關的計算任務,并進行部分原本CPU的工作DSP:專注于數字信號處理,適合處理需要高效、實時、連續的數字信號MCU:把CPU的頻率與規格做適當縮減形成芯片級的計算機SRAM:靜態數據存儲器,電力供應停止,SRAM儲存的數據會消失DRAM:動態數據存儲器,DRAM需要周期性地刷新以保持數據不變ADC:將模擬信號轉換成數字信號,并實現數字信號的存儲、傳輸、處理、分析DAC:將數字信號轉換成模擬信號,

DAC的位數越高,信號失真就越小集成了微控制器/處理器、存儲器、通信接口和各種傳感器等元件。AI芯片:指針對人工智能算法做了特殊加速設計的芯片7數據來源:汽車之家,東吳證券研究所繪制當前市場上流通的主流芯片包括四大類:1)處理器芯片,包括CPU、GPU、DSP、和MCU,負責系統的運算和控制核心,以及信息處理和程序運行的最終執行單元。2)存儲器芯片:包括靜態(SRAM)以及動態(DRAM)隨機存取存儲器等,用于數據的存儲。3)模擬-數字轉換器(ADC)

數字-模擬轉換器

(DAC):這兩種芯片分別用于模擬信號和數字信號的互相轉換,廣泛應用于傳感器和測量儀器中。4)片上系統(SoC):集成微控制器/處理器/存儲器/通信接口和傳感器等元件,通過簡單編程可以實現豐富的功能。AI芯片是屬于SoC片上系統芯片的特殊分支,是指針對人工智能算法做了特殊加速設計的芯片,專門用于處理人工智能應用中的大量計算。圖:芯片類型AI芯片分類:GPU以及ASIC主導訓練/推理應用AI芯片(按技術架構)GPU類腦芯片FPGAASIC定義:單指令、多數據處理的計算單元,主要處理圖像領域的運算加速。特點:具備通用性,性能高;但功耗高且須有CPU控制調用才能工作定義:一種可以被編程或重新編程的集成電路芯片,可以通過編程來改變功能特點:可編程定制功能,但功耗和通用性一般定義:一種根據特定用戶要求或特定電子系統的需要而設計和制造的集成電路特點:可定制且功能穩定、功耗可控,但不能編程拓展定義:是一款模擬人腦的新型芯片架構,模擬人腦功能進行感知、行為和思考特點:功耗低、響應速度快;但技術尚不成熟AI芯片(按功能場景)訓練和推理云端和設備端訓練芯片需要極高的計算性能、較高的精度、海量數據處理能力、通用性推理芯片對性能、精度、通用性要求更低;但更為關注用戶體驗優化云端芯片性能強大、能夠同時支持運算、圖片、語音、視頻等不同AI應用設備端芯片體積小、耗電少、性能不特別強大,但可讓設備不需要聯網就能具備一兩種AI能力?

為滿足行業發展對于芯片處理性質單一但規模龐大的數據計算的需求,產業基于GPU圖像處理器的并行計算能力持續升級,開發了以極致性能為代表的GPU以及以極致功耗為代表的ASIC芯片,以及介于二者之間,兼具靈活性和高性能的FPGA等不同類型芯片,應用于包括云端訓練以及邊緣段推理等不同場景。未來,AI芯片將持續迭代,開發高度模擬人腦計算原理的類腦芯片,圍繞人腦的神經元/脈沖等環節,實現計算能力的飛躍提升以及能耗的大幅下降。圖:芯片按架構和場景分類8數據來源:汽車之家,東吳證券研究所繪制芯片生產:設計為基礎,制造最核心,封測保性能?

芯片制造分為三大步驟,分別是芯片設計、芯片制造、封裝測試芯片設計:在EDA軟件工具的支持下,通過購買授權+自主開發獲得IP,遵循集成電路設計仿真驗證流程,完成芯片設計。首先明確芯片目的(邏輯/儲存/功率),編寫芯片細節,形成完整HDL代碼;其次利用EDA軟件(高制程工藝軟件市場集中度高)將HDL代碼轉為邏輯電路圖,進一步轉為物理電路圖,最后制作成光掩模。芯片制造:壁壘最高!三大關鍵工序光刻、刻蝕、沉積,在生產過程中不斷重復循環三工序,最終制造出合格的芯片。過程中要用到三種關鍵設備,分別是光刻機、刻蝕機、薄膜沉積設備。封裝測試:測試是指在半導體制造的過程中對芯片進行嚴格的檢測和測試,以確保芯片的質量和穩定性和性能;而封裝則是將測試完成的芯片進行封裝,以便其被應用在各種設備中。圖:芯片生產流程9數據來源:汽車之家,東吳證券研究所繪制設計環節:EDA軟件格局集中,IP模塊是核心產權10數據來源:

IPnest

(Avr

2022),東吳證券研究所EDA:(Electronic

Design

Automation)電子設計自動化,常指代用于電子設計的軟件。目前,Synopsys、Cadence和Mentor(Siemens

EDA)占據著90%以上的市場份額。在10納米以下的高端芯片設計上,其占有率甚至高達100%。國產EDA工具當前距離海外龍頭有較大差距。IP核:指一種事先定義、經過驗證的、可以重復使用,能完成特定功能的模塊(類似于excel模板),物理層面是指構成大規模集成電路的基礎單元,SoC甚至可以說是基于IP核的復用技術。其包括處理器IP(CPU/GPU/NPU/VPU/DSP/ISP…)、接口IP(USB/SATA/HDMI…)、存儲器IP等等幾類。對于當前智駕領域AI芯片而言,常用IP核包括CPU、GPU、ISP、NPU、內存控制器、對外接口(以太網【用于連接不同車身設備以交換數據】和PCIe接口【用于主板上的設備間通訊】)等。RankCompany20212022Growth2022份額1ARM

(Softbank)2202.12741.924.5%41.1%2Synopsys1076.61314.822.1%19.7%3Cadence315.3357.813.5%5.4%4Imagination

Technologies153.0188.423.1%2.8%5Alphawave89.9175.094.7%2.6%6Ceva122.7134.79.8%2.0%7Verisilicon109.4133.622.1%2.0%8SST102.9122.018.6%1.8%9eMemory

Technology84.8105.123.9%1.6%10Rambus47.787.984.3%1.3%Top10

Vendors4304.45361.224.6%80.3%Others1217.71316.08.1%19.7%Total5522.16677.220.9%100.0%圖:全球不同廠家芯片IP銷售額以及市場規模/百萬美元制造環節:設備/工藝/材料多環節,高壁壘高集中度?

芯片制造三大關鍵工序:光刻、刻蝕、沉積,三大工序在生產過程中不斷循環,最終制造出合格的芯片;其中,設備+工藝+材料等環節尤為關鍵;芯片制造以臺積電、三星、英特爾寡頭壟斷。設備:三大關鍵工序要用到光刻機、刻蝕機、薄膜沉積設備三種關鍵設備,占所有設備投入的22%、22%、20%左右,是三種難度和壁壘最高的半導體設備。工藝:芯片制造需要2000道以上工藝制程,主要包括光刻、刻蝕、化學氣相沉積、物理氣相沉積、離子植入、化學機械研磨、清洗、晶片切割等8道核心工藝。材料:硅晶圓和光刻膠是最核心的兩類材料,90%以上的芯片在硅晶圓上制造,光刻膠是制造過程最重要的耗材,半導體光刻膠壁壘最高,全球CR5接近90%。圖:不同半導體設備占所有設備投入的比例 圖:2022年全球光刻膠企業市場份額11數據來源:智研咨詢,東吳證券研究所底軟以及工具鏈開發是自研智駕芯片的后端壁壘異構計算架構/生態開發環境:以英偉達CUDA和華為CANN為代表的核心軟件層,用于調度AI

芯片和通用芯片的底層算子,并針對性地進行加速和執行,更好地發揮出芯片的算力,實現效率最大化。SDK軟件開發工具包(Software

Development

Kit):是指軟件工程師為特定的軟件包、軟件框架、硬件平臺、操作系統等建立應用軟件時的開發工具的集合;借助SDK,應用開發者可以迅速基于特定平臺開發差異化上層應用。圖:華為和英偉達底層軟件架構12數據來源:華為/英偉達官網,東吳證券研究所智駕芯片自研聚焦設計環節中的IP核:NPU/ISP等圖:特斯拉FSD芯片13數據來源:高通官網,東吳證券研究所?

智駕邊緣端芯片以自研NPU為主,塑造產品差異化。智駕SoC芯片以CPU中央處理器+GPU圖形處理器+DSP數字信號處理器+ISP圖片處理器+NPU(AI計算單元)以及I/O接口以及存儲器等IP核集成組裝而成,其中NPU/CPU/ISP等環節對智駕邊緣段數據處理更為重要。產業鏈玩家自研智駕芯片即指芯片自主設計IP核,尤其是NPU,其次ISP等,CPU以及GPU多以外采ARM/英偉達等為主,技術相對成熟,其余I/O接口以及存儲器同樣依賴外部采購。?

云端芯片多采用集中外采形式,主要系云端芯片對于能耗以及CPU/GPU綜合能力要求較低,僅對強AI算力也即單一GPU/NPU的計算能力有較高需求,規模效應是核心優勢,外部方案更成熟。圖:高通自動駕駛芯片架構邊緣端:自研芯片勢在必行,強化軟硬件適配提效201320232030E<1TOPSTB級10TOPS100TOPS500TOPS5000TOPS自動駕駛算力增長速度曲線EB級PB級自動駕駛產生數據增長速度曲線算力冗余,數據較少,硬件先于軟件成熟數據飛躍增長,算力利用效率提升,軟件成熟軟硬件協同進步,自研提效降本14數據來源:億歐智庫

,東吳證券研究所?

智能駕駛產品力的競爭短期看產品體驗,中期看迭代效率,長期看降本能力。1)短期——算力強冗余階段:產品體驗取決于軟件算法成熟度(背后是數據量為支撐),與智駕芯片自研相關性較低,高通/英偉達/華為/地平線等多家第三方供應商產品均可滿足。2)中期——算力提效階段:在保有量提升帶動數據飛躍增長后,前期冗余布局的邊緣端硬件的利用效率進一步提升,同時也對底軟更好地調用芯片算力提出更高要求,自研芯片NPU/ISP等核心環節的優勢顯現,迭代速率更快。3)長期——協同并進階段:足量數據喂養下軟硬件能力協同提升,保障功能體驗的同時優化成本結構,要求玩家對底層硬件具備全棧深入了解。圖:隨時間推移,智駕所需算力以及數據量持續增加云端:自研利好數據閉環增效,一體化整合更優數據采集數據傳輸數據存儲數據處理部署場景仿真測試評估模型訓練采集車維護數據壓縮加密存儲空間費用大量標注成本自建數據中心成本數據集群搭建系統OTA傳輸工程師成本通信寬帶費用數據挖掘算法算法研發成本地圖開發采購場景仿真搭建研發人力成本成本主要在模型訓練集群其次是仿真集群、數據存儲以及數據標注與處理最小車輛數最小里程數測試場景數2000+10億公里10億+L4200+1億公里1000萬+10+1000萬公里10萬+L36-1010萬公里1萬+3-51萬公里1000+L22-31千公里100+?

云端芯片自研有利于數據全流程閉環,提升數據利用率和算法迭代速率,但同時成本負擔較大。智駕數據量指數級增長驅動智駕功能升級,數據的存儲、優化、利用、訓練等各環節對云端訓練/傳輸等要求較高,“數據驅動”的智駕迭代模式下,數據閉環的模型訓練與AI計算平臺相互賦能,同時提升多元異構數據的清洗和標注效率,有利于提升算法迭代升級速率。云端超算中心芯片與邊緣端芯片不同,其能力依賴GPU/NPU等的單一計算能力,前期研發和中期運維以及后期應用部署成本均較高,需要強大規模效應進行攤薄。圖:智駕算法不同環節所需成本比較15數據來源:億歐智庫

,東吳證券研究所可行性分析:對照地平線/黑芝麻,芯片自研可為16數據來源:

IPnest

(Avr

2022),東吳證券研究所企業時間事件地平線2015公司成立2019.8發布征程2,支持L22020.9發布征程3,支持L2+2021.7發布征程5,支持L2++2024發布征程6,支持L3研發團隊/人1478黑芝麻智能2017公司成立2019華山一號A5002020華山二號A10002024A2000研發團隊/人950對照國內智駕芯片初創企業地平線、黑芝麻智能等公司芯片自研歷程,【千人研發規模;30~50億研發投入;2~3年耗時】可完成智駕芯片全自研以及配套解決方案落地:地平線:自2015年成立至2024年,公司累計融資171億元人民幣,創收30億元以上,截至23年底在手現金114億元,已完成涵蓋L2/L3級別SoC芯片和配套工具鏈/底軟等的開發和規模量產。黑芝麻智能:自2017年成立至2024年,累計融資30億元人民幣,創收4.5億元以上,截至22年底在手現金不足10億元,同樣完成L2級SoC智駕芯片(NPU/ISP)等IP核自研開發和規模量產。研發耗時:1)地平線2015年成立,2019年首款智駕芯片落地;2024年預計落地征程6系列支持L3級別芯片;2)黑芝麻智能2017年成立,2019年首款智駕芯片落地,2024年大算力落地。團隊規模:截至2023年底,地平線/黑芝麻智能研發團隊人數分別有1478/950人。資金投入:地平線2021年至2023年,研發費用累計投入54億元,黑芝麻智能2020年至2023年研發費用累計投入30億元,大額研發投入保證智駕芯片持續迭代升級。圖:地平線以及黑芝麻智能發展歷史梳理以及財務比較/億元二、第三方玩家自研智駕芯片成效如何?廠商布局比較:英偉達/特斯拉最全,其余快速跟進18數據來源:

公司官網,東吳證券研究所邊緣端芯片云端底層軟件策略總結NPUISPCPUGPU其他(接口/傳輸類IP)超算芯片虛擬仿真環境計算架構平臺SDK工具鏈英偉達√√√√√GB200(單顆4PFLOPS,集群1.44EFLOPS)NVIDIADRIVESimCUDADRIVE

SDK高舉高打,GPU+CUDA構筑高壁壘算力/生態最強音華為√√√√√昇騰Atlas(昇騰910,集群算力14-20PFLOPS)華為云CANNMindStudio全面對標英偉達,綁定部分主機廠定義整車高通√√√√√--聯合谷歌/英特爾開發SnapdragonRide

SDK由座艙切入艙駕一體,邊緣端芯片發力;國內綁定Tier1環節,快速入局地平線√××××---HorizonOpenExplorerL2中低端產品線入局逐步向上突破,吸引產業戰投賦能合作黑芝麻智能√√×××----布局中低端產品特斯拉√√×××D1芯片(單顆0.36PFLOPS,集群1.1EFLOPS)自研自研自研智駕軟硬件全棧自研整合,加速能力迭代Mobileye√√×-----EyeQ

KitSDK黑盒轉開放,高算力利用效率極致降本,?

綜合OEM主機廠以及Tier環節供應商,我們梳理自研智駕芯片并已有或即將有成熟產品量產出貨的玩家進行橫向對比:英偉達/特斯拉目前云端&邊緣端芯片硬件以及對應底軟&工具鏈布局最為完善,高通聚焦邊緣端自研&Tier1落地模式迅速落地,地平線/黑芝麻智能由低到高布局。圖:行業智駕硬件各玩家對比2.1、英偉達:高舉高打,算力+生態最強音發展歷程:由GPU起構建軟硬件壁壘,拓展全行業2009年NVIDIA發布

FERMI架構2006年CUDA

架構問世2016年NVIDIA

推出

PASCAL和DRIVE

PX

2,進軍汽車智能駕駛領域2021年NVIDIA收購高清地圖開發商DeepMap2020年NVIDIA宣布推出Ampere架構1999年英偉達發明GPU1993年黃仁勛、CHRIS

MALACHOWSKY和

CURTISPRIEM

共同創立NVIDIA1995年首款產品NV1問世2021年推出面向自動駕駛汽車的AI處理器NVIDIA

DRIVE

Atlan2022年發布Hopper架構20數據來源:公司官網,東吳證券研究所?

英偉達成立于1993年,由黃仁勛聯合Sun公司兩位年輕工程師共同創立。最初致力于GPU的研發,1999年成功上市。隨著GPU在圖形和高性能計算領域的成功,英偉達逐漸擴展至人工智能、深度學習、自動駕駛和醫療等領域。公司的GPU技術在科學計算、游戲和專業工作站等領域取得巨大成功,成為全球領先的半導體公司之一。圖:英偉達發展歷史CUDA:更好加速GPU計算,構建英偉達生態壁壘CUDA

NVIDIA

發明的一種并行計算平臺和編程模型,全稱Compute

Unified

Device

Architecture它通過更好地調用圖形處理器

(GPU)

的處理能力,對算法運行進行加速,可大幅提升計算性能,并構建英偉達自身的軟件生態。CUDA的優勢在于:1)并行計算:CUDA允許開發者使用GPU的大量核心進行并行計算,以加速各種計算密集型任務;2)高效內存管理:CUDA提供了高效的內存管理機制,包括全局內存、共享內存、常量內存等,可以最大限度地利用GPU的內存資源;3)強大的工具支持:CUDA提供了一系列強大的工具支持,包括CUDA編譯器、CUDA調試器、CUDA性能分析器等,可以幫助開發者更加高效地開發和調試CUDA程序。21數據來源:公司官網,東吳證券研究所組織架構以及股權關系:黃仁勛為最大個人股東英偉達的股權結構呈現多元化,包括機構和個人持股。根據2023年年報數據顯示,領航集團有限公司、貝萊德集團公司和FMR

LLC等機構股東持有相對較大的股份,分別為8.27%、7.27%和5.61%,公司創始人黃仁勛本人持有3.49%的股份。公司高管職位工作歷史職能黃仁勛英偉達總裁、首席執行官和董事會成員曾在AMD(美國微處理器制造商Advanced

MicroDevices)工作,后在LSILogic

繼續從事芯片設計大規模集成電路芯片系統以及策略,人工智能與高效能計算領域ChrisA.

Malachowsky英偉達創始人,擔任公司管理人員和高級技術主管在HP

和SunMicrosystems

擔任工程和技術領導職務公司技術和架構發展Colette

Kress英偉達執行副總裁兼首席財務官曾在Cisco,

Microsoft,

Texas

Instruments等公司擔任高級財務職位財務戰略、規劃、報告和業務開發Jay

Puri英偉達運營執行副總裁曾為SunMicrosystems,Hewlett-PackardCompany,

Booz

Allen&

Hamilton

和TexasInstruments等公司工作銷售、營銷和綜合管理Debora

Shoquist英偉達運營執行副總裁曾為JDS

Uniphase,

Coherent

以及

Quantum工作公司的運營和供應鏈職能圖:英偉達公司主要高管22數據來源:公司官網,東吳證券研究所圍繞芯片硬件,時序進化覆蓋不同行業應用23數據來源:公司官網,東吳證券研究所?

英偉達主要系列芯片包括GeForce、Quadro、Tesla、Tegra、Jetson和DXG,算力&架構持續迭代。1999年,英偉達推出GeForce系列芯片,主要應用于游戲娛樂;此后,專業級GPUQuadro系列芯片憑借強大的計算能力和大容量顯存,廣泛應用于專業可視化領域;2008年推出的Tesla系列芯片可提供快速運算和推理,作為深度學習加速器運用于數據中心;2015、2016年分別推出Jetson系列和DGX系列,計算推理能力進一步提高,應用于數據中心、汽車、醫療等領域。英偉達憑借其算法架構的迭代升級,不斷開拓產品線,專業化高算力芯片提高整體競爭力。圖:英偉達主要芯片系列系列推出時間產品線簡介特點主要應用領域代表芯片名稱推出時間FP32算力(TFLOPS)微架構GeForce1999游戲消費級GPU具備實時光線追蹤和DLSS等先進技術游戲娛樂、圖形設計、科學計算、工業RTX

4090202239.69Ada

LovelaceQuadro1999專業可視化專業級GPU計算能力強大、大容量顯存、專業CAD、動畫制作、科學計算、虛擬現實RTX

6000202231Ada

LovelaceTesla2008數據中心深度學習加速器提供快速的矩陣運算和神經網絡推理科學計算、數據分析、深度學習P100201610.6PascalTegra2008游戲、汽車移動處理器高性能圖形和計算能力,低功耗、高度集成嵌入式系統、智能手機、平板電腦、汽車電子Tegra

32011-ARMJetson2015數據中心、汽車、醫療嵌入式開發平臺計算和推理能力強大邊緣計算、人工智能、機器人TX

220176.2PascalDGX2016數據中心、汽車、醫療HPC服務器計算和訓練能力強大,大規模學習深度學習、人工智能研究和開發H100202260Hopper產品線:游戲以及數據中心為當前出貨主力24數據來源:公司官網,東吳證券研究所年份發布芯片簡介1999GeForce256首款真正的GPU2006GeForce8800

GTX首款支持DirectX112010GeForce

GTX660首款基于Kepler架構2014GeForce

GTX980首款基于Maxwell架構2016GeForce

GTX1080首款基于Pascal架構2018GeForce

RTX2080首款基于Turing架構2020GeForce

RTX3080首款基于Ampere架構2022GeForce

RTX4080首款基于AdaLovelace架構年份發布芯片架構算力/TFLOPS2011Tesla

M2090Fermi

2.01.32013Tesla

K40Kepler4.22015Tesla

M40Pascal72016Tesla

P100Pascal9.32017Tesla

V100Volta142020A100Ampere19.52022H100Hopper51?

英偉達產品線以游戲、數據中心、專業可視化、汽車、醫療為主。游戲方面,以GeForce系列芯片為主。1999年,英偉達即推出首款GPU

GeForce256,隨著算法架構的迭代升級,GeForce系列芯片性能也不斷提高。英偉達憑借GeForce系列芯片久遠的迭代歷史,不斷提升產品競爭力和品牌影響力,鞏固其開拓其他產品線的基礎。數據中心方面,高算力芯片助力實現AI高性能計算。2011年起,英偉達開始發布應用于數據中心的高算力芯片,至2022年,基于Hopper架構的H100芯片單精度浮點算力可達51TFLOPS,算力實現飛躍,保障高性能計算。目前,英偉達數據中心Volta系列芯片和A100為AI訓練加速器,以Tesla

T4和Jetson

Xavier

NX為AI推理加速器,以Tesla系列芯片為高性能計算加速器。專業可視化方面,Quadra+RTX實現可視化。基于RTX和Quadro系列芯片,Omniverse搭建實時圖形仿真平臺,用于數字內容創作、醫療和建筑設計等領域的CloudXR提升創作速度質量。圖:英偉達游戲芯片迭代 圖:英偉達數據中心芯片迭代產品線:未來汽車芯片等相關業務有較大增量空間25數據來源:公司官網,東吳證券研究所平臺發布時間GPU智駕級別功耗(W)算力(TOPS)制程(nm)搭載車型PX2015Tegra

X1L2/L3150228/PX2(Auto

Cruise)2016Tegra

X2L2/L3125416ZF

ProAIPX2(Auto

Chauffeur)2016Tegra

X2Pascal

GPUL3/L42502416Model

S/X/3AGX

Xavier2017Tegra

XavierL3/L4303012小鵬P5/P7AGX

Pegasus2017Tegra

XavierL550032012戴姆勒&博世RobotaxiAGXOrin2019Turning

GPUL4/L5752547理想/小鵬/蔚來AGXThor2022HopperGPUAdaLovelace

GPUL4/L5/2000/極氪?

英偉達產品線以游戲、數據中心、專業可視化、汽車、醫療為主。汽車方面,高算力芯片助力智駕功能突破升級。1)硬件方面,自動駕駛平臺經歷了DRIVE

PX、DRIVE

PX2、DRIVE

Xavier、DRIVE

Pegasus、DRIVE

Orin、DRIVE

Thor的迭代。最新一代自動駕駛平臺DRIVE

Thor支持L4/L5級別智駕,算力可達2000TOPS,同時,自動駕駛開發平臺Hyperion也將搭載Thor實現性能升級;2)軟件方面,CUDA+TensorRT持續優化DRIVE

OS,進而提升DRIVE

SDK整體性能。醫療方面,2016年英偉達開始布局醫療領域;2017年合作醫療保健解決方案提供商,將AI帶入醫學影像;2018年發布Clara平臺;2021年合作Schr?dinger,利用DGX

A100擴大計算藥物發現平臺的速度和準確性;2022年發布IGX平臺,改善人機協同。圖:英偉達汽車芯片迭代歷程算法平臺持續迭代升級,支持芯片適配不同行業?

算法平臺方面,英偉達六大不同算法平臺匹配高性能計算(云端數據中心)、邊緣端以及虛擬仿真、智駕等多個領域。DGX和HGX為AI高性能計算平臺,配備H100/A100,均用于大規模學習和計算,后者相對更加靈活;EGX和IGX為邊緣計算平臺,均配備Ampere系列GPU,EGX因其靈活性,適用于視頻分析、機器視覺等領域,IGX專為工業醫療等領域設計;AGX為自動駕駛領域的可擴展式開放平臺,根據自動駕駛需求配備不同架構GPU;OVX為虛擬化平臺,配備L40S,主要用于數字孿生模擬。圖:英偉達算法平臺平臺介紹配備GPU特點適用范圍DGXAI高性能計算平臺H100/A100標準化大規模深度學習/人工智能應用HGX高性能計算和AI平臺H100/A100靈活定制化大規模數據中心/云計算EGXIGXAGXOVX邊緣計算平臺邊緣AI平臺可擴展式開放平臺虛擬化平臺Ampere系列Ampere系列Tegra/Pascal/Turning/Hopper/AdaLovelace系列L40S高度靈活工業級/安全/可靠低能耗/高性能/安全/靈活可靠穩定/高性能視頻分析/物聯網數據處理/機器視覺工業/醫療自動駕駛數字孿生模擬(建筑/工廠/城市)26數據來源:公司官網,東吳證券研究所GPU微架構持續迭代,制程升級,覆蓋更多領域?

英偉達GPU微架構持續迭代升級,Fermi、Kepler、Maxwell、Pascal、Volta、Turing、Ampere、Ada

Lovelace和Hopper,每一代都在性能、能效和特定任務方面取得不斷進步:2010年引入CUDA架構,2012年進入深度學習領域,2016年拓展HPC,2017年加速數據傳輸。架構 時間 介紹 核心參數 代表產品 納米制程 應用領域27數據來源:公司官網,東吳證券研究所Fermi2010引入CUDA架構、ECC內存 Fermi架構共含4個GPC,16個、NVIDIA

Parallel SM,512個CUDACore。DataCache、和GPU直接

每32個CUDA

Core組成1個SM每支持C++等 個SM為垂直矩形條帶。GeForce

400/500系列,TeslaM2050/M2070/M209040/28nm 科學計算、圖形處30

億晶體管

理和高性能計算。Kepler加了對動態并行計算的支持個FP32+64個

FP64+CUDACores2012

引入了GPU

Boost技術,增15

SMX,每個

SMX

包括

192

GeForce600/700系列,Quadro

K/M系列28nm 科學計算、深度學71

億晶體管 習和游戲等領域Maxwell2014 態超分辨率技術和VRDirect技術等引入多層次的內存系統、動

16

SM,每個

SM

包括

4

個處理塊,每個處理塊包括

32個CUDACores+8個LD/ST

Unit+8

SFUGeForce

900系列,Quadro

M系列28nm 游戲、深度學習和80

億晶體管 移動設備。Pascal 2016 術,提出NVIDIA

TensorCores引入了16nm

FinFET制程技GP100

60

SM,每個

SM

包括64個CUDACores,32

個DP

CoresGeForce

10系列,Quadro

P系列16nm153

億晶體管深度學習和高性能計算領域。Volta2017Nvlink2.0TensorCore

1.080個SM,每個SM包括32個FP64+64個Int32+64個FP32+8個TensorCoresTitan

V,Quadro

GV10012nm管211

億晶體

深度學習、科學計算和高性能計算。GPU微架構持續迭代,制程升級,覆蓋更多領域Turing 201828數據來源:公司官網,東吳證券研究所(如RT

Cores和Tensor

Cores)以及新的流程圖渲染技術技術、深度學習技術

102核心92個SM,SM重新設計,每個SM包含64個Int32+64個FP32+8個Tensor

CoresGeForce

16/20系列,Quadro

RTX系列12nm186

億晶體管游戲、深度學習和專業可視化等領域Ampere

2020Cores、第三代NVLink以及改進的Ray

Tracing技術引入了更多的Tensor

108個SM,每個SM包含64個FP32+64個INT32+32個FP64+4個Tensor

CoresGeForce

30系列, 7nmA100,A40,A30,A10

283

晶體管深度學習、科學計算和高性能計算領域AdaLovelace引入了第四代

Tensor2022 Core和第三代

RTCore144

SM,每個

SM

包含

128CUDA

Cores,

1

個第三代

RTCore,4個第四代TensorCore,四個紋理單元、一個256

KB

的寄存器文件和

128

KB

L1/共享內存GeForce

RTX40系列4nm763

晶體管光線追蹤和基于AI的神經圖形Hopper2022TensorCore

4.0Nvlink

4.0結構稀疏性矩陣MIG

2.0132個SM,每個SM包含128個FP32+64個INT32+64個FP64+4個Tensor

CoresTelsa

H1004nm800

晶體管深度學習、科學計算和高性能計算?

英偉達GPU微架構持續迭代升級,Fermi、Kepler、Maxwell、Pascal、Volta、Turing、Ampere、Ada

Lovelace和Hopper,每一代都在性能、能效和特定任務方面取得不斷進步:2017年后引入Tensor

Core,減少乘加操作時間,提供更快計算速度,成為企業級AI首選,年拓展專業可視化市場,2020年之后正式引入支持AI神經圖形以及算力稀疏化的微架構方案。架構 時間 介紹 核心參數 代表產品 納米制程 應用領域引入了實時光線追蹤財務:游戲業務貢獻營收增量,凈利率靚麗29營收維度,游戲業務/數據中心業務接力,先后成為公司主力業務,2023Q2以來數據中心業務出貨量迅速爆發,支撐營收保持高速增長,主要集中于北美市場盈利能力領先。毛利率持續高位,規模效應提升驅動2023Q3毛利率提升至70%以上水平,帶動凈利率突破50%,數據來源:公司官網,wind,東吳證券研究所圖:英偉達財務比率圖:英偉達分地區營收占比圖:英偉達營收以及分業務板塊占比2.1.1

英偉達——汽車智駕業務布局英偉達:GPU硬件+CUDA軟件構建壁壘,衍生AI以GPU++CUDA為自身AI智能領域核心壁壘,英偉達輻射拓展汽車智駕業務,具備領先技術優勢GPU以及衍生產品:游戲顯卡為基礎,Hopper架構+Transformer加持,加速AI訓練云數據中心:融合CPU/GPU/DPU形成HPU超算中心,支持云端/本地大模型計算以及仿真芯片Soc異構方案:GPU配合Grace

CPU形成大算力超級AI芯片BlueField數據傳輸:自研DPU芯片,支持數據中心超大規模AI數據安全+快速傳輸深度學習:CUDA編程高性能庫,支持塊API,便于利用GPU進行基于大數據的推理以及訓練數據網絡加速:通過創建DPU加速服務,對數據中心基礎架構進行編程,滿足數據傳輸需求圖形渲染:分為圖像研究、圖像處理、渲染性能以及光線追蹤等四部分,應用于科研以及游戲等仿真模擬:動力學以及醫學場景模擬,加速數據搜集以及模型訓練進程軟件:CUDA構建高生態壁壘,配合 硬件形成各類解決方案硬件:由GPU拓展 CPU/DPU,部署云端超算以及邊緣端解決方案行業主流英偉達智駕硬件解決方案上車,搜集場景化數據數據處理(清洗/標注),基于實測數據調參,進行仿真模擬云端超算中心利用實測+仿真數據訓練算法開發操作系統及中間件,初步形成包括感知-實時構圖-規控的軟件棧平臺云端算法裁剪落地邊緣端,形成實時解決方案DRIVE

Chauffeur平臺DRIVE

HyperionOmniverse

CloudDGX-SuperPOD智駕完整軟件棧DRIVE

SDK

軟件工具包DRIVE

OS

操作系統DRIVE

Works

中間件DRIVE

Map

智駕地圖DRIVE

AV

智駕感知15攝像頭9毫米波雷達12超聲波雷達1激光雷達完整軟件棧OVX硬件服務器:GPU+高速網卡Omn-Replicator:生成3D數據DGX高性能服務器+InfiniBand網卡驅動,提供卓越性能訓練算法云端算法裁剪落地邊緣車端,并搜集數據持續OTA升級,形成閉環迭代。31數據來源:公司官網,東吳證券研究所1、AI基礎設施一:硬件——DGX

Super

PODDGX

SuperPOD服務英偉達企業版AI英偉達基礎命令平臺英偉達基礎命令英偉達企業版AIDGXH100|DGX

A100英偉達認證儲存32數據來源:公司官網,東吳證券研究所?

NVIDIA

DRIVE

基礎架構包括開發自動駕駛技術(從原始數據采集到驗證)所需的完整數據中心硬件、軟件和工作流。該基礎架構為神經網絡開發、訓練和驗證以及仿真測試提供了所需的端到端構建模塊。其包括:DGX云、

NVIDIA

DGX

Super

POD以及AI

Enterprise軟件套件三大核心。NVIDIA

DGX

SuperPOD:一站式AI基礎架構。多個

DGX服務器組成的先進

AI計算基礎架構,可提供卓越的性能。這使得

OEM

能夠更快、更高效地訓練和優化深度學習模型,從而縮短開發安全自動駕駛系統所需的時間。圖:英偉達DGX

SuperPOD服務H100/A100等大算力GPU滿足DGX云平臺計算需求?

超大算力芯片主要用于AI領域的圖形和計算,產品矩陣不斷豐富。目前,英偉達主流GPU產品均基于Ampere、AdaLovelace和Hopper架構構建,應用于圖形和計算領域,能力覆蓋深度學習訓練、數據分析、推理、高性能計算、AI等。圖:英偉達大算力芯片產品矩陣33數據來源:公司官網,東吳證券研究所DPU專用芯片加速數據處理,提升數據中心能效DPU(數據處理器,Data

Processing

Unit),是數據中心第三顆主力芯片。2020

年,NVIDIA

推出BlueField-2

DPU,將其定義為繼

CPU和

GPU

之后“第三顆主力芯片”,正式拉開

DPU

發展的序幕DPU有望提高數據中心的效率,為異構處理組合增添了新的元素。DPU

對于數據中心的分解非常重要,它允許服務器處理器只執行計算任務,而

DPU

則處理網絡計算和存儲之間的數據移動。通過使用基于

DPU

的智能網絡接口卡

(NIC),云服務提供商可以節省服務器處理器的計算周期,用于創收服務。DPU

還能比服務器處理器更有效地處理網絡流量,從而降低數據中心的能耗。在存儲系統中,DPU

可以取代標準處理器,處理

SSD

陣列的巨大吞吐量,同時降低功耗。圖:BlueField-3

DPU34數據來源:公司官網,東吳證券研究所圖:BlueField

DPU

迭代圖1、AI基礎設施二:軟件——AI

EnterpriseNVIDIA

AI

Enterprise

NVIDIA

AI

平臺的軟件層,可訪問數百個

AV

框架。其中包括

TensorFlow、PyTorch

NVIDIA?

CUDA-X ,可讓

AV

公司創建、測試、訓練和部署復雜的

AI算法。35數據來源:公司官網,東吳證券研究所2、智駕硬件:Hyperion感知與規控硬件套件NVIDIA

DRIVE

Hyperion

是用于量產自動駕駛汽車的平臺。此自動駕駛汽車參考架構通過將基于

DRIVE

Orin 的

AI

計算與完整傳感器套件(包含

12

個外部攝像頭、3

個內部攝像頭、9

個雷達、12

個超聲波、1

個前置激光雷達和

1

個用于真值數據收集的激光雷達)相集成,能夠加速開發、測試和驗證。ORIN可提供每秒

254

TOPS(萬億次運算),包括87TOPS的DLA算力以及157TOPS的Ampere架構下的GPU算力,專用于智駕行業。下一代THOR芯片預計于2025年正式量產,支持Soc多域計算,可同時聚焦智駕與智艙多領域,運行Linux、QNX以及安卓多系統,提供1000TOPS算力,同時有效降低成本。圖:英偉達智駕邊緣端硬件芯片36數據來源:公司官網,東吳證券研究所Orin/Thor芯片滿足EGX邊緣端硬件需求37數據來源:公司官網,東吳證券研究所DRIVEAGX

XavierDRIVEAGX

OrinDRIVEAGX

Thor發布時間20172019.122022.9CPU8*ARM

6416*ARM

64Grace

CPUGPU1*Tegra

Xavier2*Turning

GPUHopperGPUAdaLovelace

GPU自動駕駛級別L3/L4L4/L5L4/L5功耗W3075/算力TOPS302542000制程nm127/搭載車型小鵬P5/P7理想/小鵬/蔚來/智己/高合/廣汽/長安極氪英偉達2019年推出

DRIVE

AGX

Orin,是適用于自動駕駛車輛和機器人的高度先進的軟件定義平臺,由名為

Orin

的新型片上系統

(SoC)

提供支持,該系統由

170

億個晶體管組成。Orin

SoC

集成了

NVIDIA

的下一代

GPU

架構和

Arm

Hercules

CPU

內核,以及新的深度學習和計算機視覺加速器,每秒可實現

254萬億次運算,幾乎是

NVIDIA

上一代

Xavier

SoC

性能的

7

倍。借助可擴展的DRIVE

Orin

產品系列,開發者只需在整個車隊中構建、擴展和利用一次開發投資,便可從

L2+

級系統一路升級至

L5級全自動駕駛汽車系統。2022年,DRIVE

Thor問世。汽車級片上系統

(SoC)

基于最新的

CPU

GPU

技術而構建,可提供1000teraflops

的性能,同時降低總體系統成本。DRIVE

Thor

統一了車輛中傳統的分布式功能,包括數字集群、信息娛樂、停車和輔助駕駛,以提高開發效率和加快軟件迭代速度。圖:英偉達智駕邊緣端硬件迭代發展歷史3、智駕軟件:DRIVE

SDK多樣化工具覆蓋開放式

NVIDIA

DRIVE

SDK

為開發者提供了自動駕駛所需的所有構建塊和算法堆棧。該軟件有助于開發者更高效地構建和部署各種先進的自動駕駛應用程序,包括感知、定位和地圖繪制、計劃和控制、駕駛員監控和自然語言處理。圖:英偉達底軟架構38數據來源:公司官網,東吳證券研究所智駕軟件:DRIVE

SDK多樣化工具覆蓋CUDA?是

NVIDIA

開發的并行計算平臺和編程模型,用于GPU

上的通用計算。NVIDIA

TensorRT 是一個高性能深度學習推理平臺。它包括硬件感知的深度學習推理優化器和運行時,可為深度學習推理應用程序提供低延遲和高吞吐量(DLA)。NvStreams

是一種高效的

API,可提供對高速數據傳輸的訪問,從而實現自動駕駛車輛所需的復雜處理工作流。NvMedia

是一組高度優化的

API,可直接訪問硬件加速的計算引擎和傳感器,包括編碼器/解碼器、傳感器輸入處理、圖像處理等。39數據來源:公司官網,東吳證券研究所Omniverse-NVIDIA

DRIVE

Sim提供虛擬世界開發DRIVE

Sim是一個開放式模組化可擴展平臺,可讓用戶根據自己的需求自定義仿真器,可以使用隨附的

SDK,為傳感器模型、車輛動力學、交通模型或自定義硬件的界面輕松構建擴展程序。其包括:硬件端:NVIDIA

OVX

系統均由

NVIDIA

認證的合作伙伴制造和銷售,最多可將八個最新的NVIDIA

Ada

Lovelace

L40S

GPU與高性能

ConnectX

Bluefield

網絡技術相結合,滿足企業組織對加速性能的大規模需求;軟件端:借助

NVIDIA

OMNIVERSE

Replicator

,開發者可以為罕見和復雜場景創建多樣化的合成數據集,包括基于物理性質的傳感器數據和像素準確的真值標簽。這些標簽包括深度、速度、遮擋和其他難以標記的參數。40數據來源:公司官網,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論