




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
核心結(jié)論:PU的核心競(jìng)爭(zhēng)力在于架構(gòu)等因素決定的性能先進(jìn)性和計(jì)算生態(tài)壁壘。國內(nèi)PU廠商紛紛大力投入研發(fā)快速迭代架構(gòu),推動(dòng)產(chǎn)業(yè)開放構(gòu)建自主生態(tài),加速追趕全球頭部企業(yè)。國產(chǎn)替代需求持續(xù)釋放疊加國際局勢(shì)不確定性加劇,I數(shù)據(jù)中心、智能汽車、游戲等PU需求有望高增,國產(chǎn)PU迎來發(fā)展黃金期,我們看好國產(chǎn)PU公司的發(fā)展與投資機(jī)遇。VII長期居于M憑借ridarketesearch0立48VIIA和A8。根據(jù)PVIIAA始終占有P領(lǐng)域超0%A憑借據(jù)超五成市場(chǎng)份額,AMD(ATI)也曾因架構(gòu)出色、性能驚艷實(shí)現(xiàn)反超。同時(shí)NVIDIA早在2006年前瞻性布局通用計(jì)算、構(gòu)建CUDA2需求端ItP是srr/為基礎(chǔ)的2222385.07長率達(dá)62需求端預(yù)計(jì),22P到片投資建議產(chǎn)業(yè)邏輯:GPU的核心競(jìng)爭(zhēng)力在于架構(gòu)先進(jìn)性能和生態(tài)豐富性,國產(chǎn)廠商正持續(xù)大力投入研發(fā)實(shí)現(xiàn)GPU架構(gòu)創(chuàng)新升級(jí)和快速迭代,力爭(zhēng)第二,提出在評(píng)估GPU性能的指標(biāo)的重要性上:微架構(gòu)、制程、流處理器數(shù)量、核心頻率對(duì)GPU性能影響較大。我們?cè)敿?xì)梳理了GPU的微架構(gòu)、制程、顯存容量/位寬/帶寬/頻率、核心頻率等各類性能參數(shù)及重要性程度,并利用“核心數(shù)核心頻率”公式對(duì)性能算力進(jìn)行量化,揭示可用rk、rf等GPU軟件跑分進(jìn)行相關(guān)性能測(cè)試評(píng)估。第三,詳細(xì)拆解了NVIDIAFermi和Hopper兩大典型微架構(gòu)的具體硬件實(shí)現(xiàn),在頂點(diǎn)處理、光柵化計(jì)算、第四,明晰了生態(tài)是構(gòu)建通用計(jì)算壁壘的基石。提出GPU研發(fā)難度在圖形渲染硬件和通用計(jì)算軟件生態(tài)層面,在IP、軟件棧方面研發(fā)門檻較高,需要較長的積累,先發(fā)者優(yōu)勢(shì)明顯。CUDA生態(tài)從2006年推出至今,CONTENTSGPUvs
資料來源:NVIDIA官 資料來源:搜狐@十一號(hào)組織,中信證券研究 1)獨(dú)立:大部分封裝于獨(dú)立顯卡電路板上,使用IE接口和特定顯存,不受空間和供電限制,性能相對(duì)更好、渲染畫質(zhì)更佳。主要廠商包括A(系列)、VIIA(fc系列)。)集成:通常未擁有獨(dú)立顯存,集成于P內(nèi)部,與P共同使用n(系列)、A(系列。)GG圖渲染能力,對(duì)性能要求較高。)服務(wù)器端:主要進(jìn)行專業(yè)可視化處理、I訓(xùn)練、推斷的深度學(xué)習(xí)、提高計(jì)算運(yùn)行能力以及視頻編解碼等功能,以獨(dú)立U為主。)移動(dòng)端:提高游戲體驗(yàn)、提升游戲處理性能,應(yīng)用場(chǎng)景包括、桌面、云計(jì)算、數(shù)據(jù)中心等。受移動(dòng)。 PC XeLP、TITAN服務(wù)器 移動(dòng)
資料來源:微信公眾號(hào)@GPUand 資料來源:微信公眾號(hào)@GPUand
資料來源:NVIDIA官網(wǎng),CSDN@FinovyCloud,中信證券研究 1.11.1GPU產(chǎn)業(yè)鏈:設(shè)計(jì)→制造→I模式:指將GU產(chǎn)業(yè)鏈的三個(gè)環(huán)節(jié)整體化,充分結(jié)合自主研發(fā)和外部代工,集設(shè)計(jì)、制造、封裝為一體,公司垂直整合U整體產(chǎn) 資料來源:華經(jīng)情報(bào)網(wǎng),各公司官網(wǎng),中信證券研究 資料來源:IT智庫,eefocus,中信證券研究 制
指張量處理單元的數(shù)量,TensorCore核數(shù)越多,性能越好 制程:指PU集成電路的密集度。在晶體管硬件數(shù)量一定的情況下,更精細(xì)的制程能夠減少功耗和發(fā)熱?,F(xiàn)階段PU主流最先進(jìn)工藝制程為5nm。資料來源:阿里云官 資料來源:半導(dǎo)體行業(yè)觀察微信公眾GPUCUDAGPUCUDAGPUTensor資料來源 資料來源:NVIDIAA100TensorCoreGPUArchitecture白皮資料來源 資料來源:NVIDIA官微架構(gòu)又稱為微處理器體系結(jié)構(gòu),是在圖形函數(shù)和指令集條件下處理器中的執(zhí)行方法。某一特定指令集可以在不同微架構(gòu)中執(zhí)行,但在PU微架構(gòu)包括流處理器、渲染核、雙精度浮點(diǎn)運(yùn)算單元、特殊運(yùn)算單元、流式多處理器、紋理處理器、圖形處理器、流處理器陣列。GPU架構(gòu)工作流程為:VertexShader(定點(diǎn)著色器)建立圖形骨架,再通過算法轉(zhuǎn)化進(jìn)行光柵化計(jì)算,進(jìn)而進(jìn)行紋理映射,再由名 功流處理器 渲染核
張量單元(TensorCore) 資料來源:廈門大學(xué)@
資料來源:NVIDIA
Fermi架構(gòu)共含4個(gè)GPC16個(gè)SM512個(gè)CUDACore。每32個(gè)CUDACore組成1個(gè)SM,使用并行內(nèi)核,全局分配邏輯支持與CPU并行傳 FermiGPC核心微架
SM之間彼此獨(dú)立,可各自調(diào)度多個(gè)ThreadFermiFermiSM資料來源:NVIDIA
SM全稱StreamingMultiprocessor,F(xiàn)ermi架構(gòu)下,每個(gè)SM具有32個(gè)CUDACore,組成部2WarpScheduler/DispatchUnit(橙色部分分別位于兩條lane上的32個(gè)CUDA 1個(gè)registerfile-L1cache(淺藍(lán)色部分16Load/Storeunits(LD/STUnit),支持各線程同4SpecialFunctionUnits(SFU),用于計(jì)算資料來源:NVIDIAHost HostGigaGigaThreadHostInterface(黑色部分為主機(jī)接口,圖形渲染流水線中負(fù)責(zé)接收指令。通過PCI-Express將GPU和CPU相連接,并讀取CPU指令。再通過FrontEnd(前端)處理指令。為全局調(diào)度器,圖形渲染流水線中負(fù)責(zé)將特定的數(shù)據(jù)從HostMemory中復(fù)制到Framebuffer中,創(chuàng)建ThreadBlocks(線程1.21.2資料來源:NVIDIA Fermi核心微架
單個(gè)CUDACore1個(gè)DispatchPort和1個(gè)OperandCollector、1個(gè)Unit和1個(gè)INTUnit和ResultQueue行頂點(diǎn)數(shù)據(jù)確定,通過Vertex-shader建立3D圖形框架。 Fermi核心微架
PolyMorphAttributeStreamPolyMorphEngine(黃色部分,多形體引擎是全球首款實(shí)現(xiàn)了可擴(kuò)展幾何學(xué)流水線的重要元件。主要負(fù)責(zé)頂點(diǎn)拾?。╒ertexFetch)、細(xì)分曲面(Tessellation)、視口轉(zhuǎn)換(ViewportTransform)、屬性設(shè)定(AttributeSetup)、流輸出(StreamOutput)五個(gè)方面的處理工作。ViewportTransform負(fù)責(zé)模塊處理已完成vertex-shaderAttributeSetup確保經(jīng)過插值后的vertex-shader數(shù)據(jù)在pixel-資料來源:NVIDIA Fermi核心微架
RasterEdge EdgeRasterEngine(黃色部分為光柵引擎,將光柵化處理硬件單元進(jìn)行結(jié)合,包括將Vertex-shader生成圖形上的頂點(diǎn)和線段轉(zhuǎn)化為對(duì)應(yīng)的資料來源:NVIDIA Fermi核心微架 資料來源:NVIDIA Fermi核心微架
Pixel-shader資料來源:NVIDIA資料來源:NVIDIAL264KBL264KBSharedMemory/L1L1為SM中的L1緩存,提高臨時(shí)寄存器的使用效率,大幅降低堆棧操作和全局LD/ST,并且作為Vertex-shaderPixel-L2取相同數(shù)據(jù)的需求(如Vertex-shader和Pixel-shader)提供緩資料來源:NVIDIA資料來源:NVIDIAH100TensorCoreGPUArchitecture Hopper核心微架
完整的GH100GPU架構(gòu)包括以下單元:8GPC、72個(gè)TPC、2個(gè)SM/TPC、每個(gè)完整GPU內(nèi)含144SM新型流式多處理器(SM),第四代TensorCore提速6倍,DPX指令最高提速動(dòng)態(tài)編程7倍,IEEEGPUMIG)技術(shù),擴(kuò)增計(jì)算容量將近3倍。GPU2倍,采用50MB二級(jí)緩存架構(gòu),支持大數(shù)據(jù)量重復(fù)訪問。第三代NVSwitch、PCle 每個(gè)GPC由9個(gè)TPC即紋理處理集群(TextureProcessorCluster)組成。每個(gè)TPC包括2個(gè)SM單元,256FP32CUDACore核心,8個(gè)TensorCore核心。相比先前架構(gòu)中的線程塊分布,Hopper架構(gòu)中新增資料來源:NVIDIAH100TensorCoreGPUArchitecture白皮書,中信證券研究 NVIDIAH100TensorCoreGPUArchitecture
SM全稱StreamingMultiprocessorHopper架構(gòu)下,每個(gè)SM包含128FP32CUDACore4TensorCore核心,主要組1個(gè)L1InstructionCache,1DataCacheCache4個(gè)L0InstructionCache(淺藍(lán)色部分4WarpScheduler(橙色部分4DispatchUnit(紅褐色部分128FP32Unit(草綠色部分64FP64Unit墨綠色部分4SpecialFunctionUnits(SFU/橘紅色色部分32LD/STUnit(深紅色部分資料來源:資料來源:NVIDIAH100TensorCoreGPUArchitectureL0Instruction L0InstructionL0InstructionGPU用以繪圖顯示、數(shù)主要負(fù)責(zé)檢查當(dāng)前指令(tt)中的數(shù)據(jù)是否完備(d)。分為兩種情況處理:數(shù)據(jù)完備,傳入p;數(shù)據(jù)不完備則存儲(chǔ)于tctner中。InstructionBuffer可以屏蔽掉總線延時(shí)。因?yàn)镹VIDIANVIDIAH100TensorCoreGPUArchitecture WarpWarpWarp全稱線程束調(diào)度器,在CUDA中,每32,主要負(fù)責(zé)任務(wù)調(diào)度。WarpScheduler需要先確認(rèn)當(dāng)前FunctionUnit的狀態(tài),再將InstructionBuffer中已完備(ready)的指令調(diào)度給下一級(jí)的Dispatcher資料來源:NVIDIA資料來源:NVIDIAH100TensorCoreGPUArchitectureDispatch DispatchDispatcher全稱調(diào)度單元,可依據(jù)輸入的數(shù)據(jù)、信息決定下主要負(fù)責(zé)根據(jù)指令(instruction)和Threadmask計(jì)算出下屬各個(gè)functionunitinstruction和registeroffset,用其計(jì)算結(jié)果,將指令傳遞至處于閑置狀態(tài)的functionunit下運(yùn)行。NVIDIANVIDIAH100TensorCoreGPUArchitectureLD/STFP32FP64LD/STFP32FP64Function為SM中的核心組成部件,稱作功能單元,包括INT32Unit、FP32Unit、FP64Unit、LD/STUnitFP32UnitFP64Unit分別支持FP16/FP32LD/STUnit即加載/存儲(chǔ)單元負(fù)責(zé)處理寄存器文件SFU負(fù)責(zé)用于計(jì)算正弦函數(shù)、余弦函數(shù)、指數(shù)、 相比,能夠?qū)崿F(xiàn)在GPUSM并行運(yùn)行,并大 TensorCore專用于矩陣運(yùn)算執(zhí)行,對(duì)各類型數(shù)1.21.2Hopper架構(gòu)為例—CUDAvsTensor NVIDIAH100TensorCoreGPUArchitecture
類型,包括INT32、FP32、FP64,每次運(yùn)算執(zhí)1x1perGPUclock。的運(yùn)算內(nèi)核,支持FP8、FP16、BF16、TF32、FP64和INT8MMA數(shù)據(jù)類型,每次運(yùn)算執(zhí)行一次矩陣乘法[111 [11111 11 perGPU11 11 L2L1DataL2L1DataCache/SharedL1DataL2為L2緩存,也稱二級(jí)緩存,與內(nèi)部全部SM均相連通,中作為GlobalMemory緩存,存儲(chǔ)GPU的部分拷貝,資料來源:NVIDIAH100TensorCoreGPUArchitecture,中信證券研究
包括32CudaCores,512Cuda
Cudacores
個(gè)M,每個(gè)包括每個(gè)處理塊包括個(gè)CUD內(nèi)核個(gè)LD/Tt個(gè)FU
有個(gè)每個(gè)32個(gè)DPcores
RTCoreRTCoreNvlink3.0NvlinkMIG Quadro
資料來源:NVIDIA官網(wǎng),中信證券研究 以NVIDIAA100和H100產(chǎn)品架構(gòu)對(duì)比為例,在SM數(shù)量、TPC數(shù)量、FP32Core核心數(shù)量、FP64Core核心數(shù)量上都具有顯著增加,同時(shí)TensorTPCFP64CUDAFP32CUDAMenoryFP16FP16TFLOPS
FP32 60FP64 9.7TFLOPS(1/2FP32 30資料來源:NVIDIA圖形渲染領(lǐng)域:采用光線追蹤技術(shù),相較傳統(tǒng)光柵化渲染方式,光線追蹤采用基于物理渲染方式,使得所實(shí)現(xiàn)的效果更加接近顯示,具通用計(jì)算領(lǐng)域:目前國際各大廠商均推出GPGPU計(jì)算解決方案,大規(guī)模擴(kuò)展計(jì)算能力的高性能計(jì)算。例如:1)ATIStream:為程序員提供SDK開發(fā)工具包以協(xié)同進(jìn)行GPU計(jì)算。2)NVIDIACUDA:推出統(tǒng)一計(jì)算架構(gòu),由管線分工式設(shè)計(jì)轉(zhuǎn)變?yōu)榻y(tǒng)一化的處理器設(shè)計(jì),學(xué) U在I領(lǐng)域得到廣泛的應(yīng)用,包括自動(dòng)駕駛、醫(yī)療影像分析、人工智能計(jì)算能力、金融模型建立等領(lǐng)域,如第三代的張量單元相較于倍。 資料來源:NVIDIA 算 1.21.2GPU MSI AIDA64 提供GPGPUBenchmarkGPU 1.21.2GPU圖形渲染游戲性能測(cè)試—3DMark3DMark Time 有助于實(shí)現(xiàn)新APIPort Night 具有集成顯卡的 Wild 適用于微軟、安卓和iOS系統(tǒng)的跨平臺(tái)基準(zhǔn)測(cè)試。使用Vulkan圖形APIFire使用于游戲型PCDirectX11基準(zhǔn)測(cè)試產(chǎn)品。FireStrikeCPUGPUCPU游戲玩家資料來源:3DMark1.21.2GPUAI性能測(cè)試—MLPerf基準(zhǔn)測(cè)試不僅提供AIMLPerfMLPerf 提供離線場(chǎng)景(OfflineScenario)性能測(cè)試,適用于計(jì)算機(jī)視覺問題,從一組固定的類別中分配一個(gè)標(biāo)簽到一個(gè)輸入圖 自然語言處理 資料來源:MLPerf資料來源:電子元器件論壇@傳統(tǒng)傳統(tǒng)資料來源:愛碼網(wǎng)@X-knight,Stack,CSDN@zjxlinkGPGPU:SIC:為專用集成電路,應(yīng)用于市場(chǎng)需求量大的專用領(lǐng)域。指應(yīng)特定用戶要求和特定電子系統(tǒng)的需要而設(shè)計(jì)、制造的集成電路,特點(diǎn)是 GPGPUFPGAASIC對(duì) 定 技
CUDASASS本身為計(jì)算整數(shù)d=a*b+c(左圖為CUDASASS表示乘數(shù)b為2SASS指令集分類:主要包括Predicate操作指令、Float指令、Integer指令、格式轉(zhuǎn)化/數(shù)據(jù)移動(dòng)/內(nèi)存操作/跳轉(zhuǎn)分支指令和Uniform 也稱作guardpredicate,由4bit編碼指定,是控制線程是否執(zhí)行指令的方式之一 \hMOVMUFU作為SASSMOVMOVGPU生態(tài)的由三大部分基本構(gòu)成:1)上層圖形引擎、算法庫。2)中層標(biāo)準(zhǔn)API接口適配各類驅(qū)動(dòng)、編譯器。3)底層硬件/ 圖形引擎圖形引擎/標(biāo)準(zhǔn)IPIP研發(fā)難度大、需要多年沉淀才能產(chǎn)出穩(wěn)定性較佳的產(chǎn)品。目前U領(lǐng)域中,想要短期內(nèi)產(chǎn)出需要依賴外部I授權(quán)。市場(chǎng)上大多公司使用Itn提供的IP,即在購買商用UIP之后自行修改迭代。以蘋果芯片P專利為例,蘋果在0之前處理器芯片都是采用l的I。計(jì)算機(jī)芯片除了硬件之外,還要求有與之配套的軟件體系,而GPU軟件體系復(fù)雜,涵蓋各類圖形APIGPU資料來源:ESM
NVIDIANVIDIA和AMDGPU資料來源:搜狐@
資料來源:百家號(hào)@1.31.3GPU生態(tài)體系:以NVIDIACUDANVIDIA最新生態(tài)架構(gòu)組件包含六大部分:編程語言和API、開發(fā)庫、分析和調(diào)試工具、數(shù)據(jù)中心工具和集群管理、GPU 編程語言和
GeForceGPU、QuadroGPU、數(shù)據(jù)中心GPU、 1.31.3GPU生態(tài)體系:以NVIDIACUDA資料來源:博客園@青竹居士,NVIDIACUDA技術(shù)棧由NVIDIAGPU、OperatingSystem、CUDADriver和CUDA程序組成,其中底層GPU提供硬件支持相關(guān)指令運(yùn)行,操作系
1.31.3GPU生態(tài)體系:以NVIDIACUDA資料來源:NVIDIA資料來源:NVIDIA在28年-210年,A平臺(tái)進(jìn)一步發(fā)展,拓展了新局域的同步指令、擴(kuò)充全速常量內(nèi)存并且支持遞歸,IA向各軟件廠商免費(fèi)提 2008年:業(yè)務(wù)轉(zhuǎn)2008年:收購型,將并行處理Mentalimages運(yùn)用于通用計(jì)算和AGEIA CUDA1.0版與 CUDA1.1 發(fā)布CUDA2.0 CUDA3.0Toolkit隨著2011CUDA4.0的推出,標(biāo)志著NVIDIA在HPC((Highperformancecomputing)即高性能通用計(jì)算領(lǐng)域的一大突破。結(jié)合GPU
NVIDIA虛擬化K1推出布CUDAToolKit4.0版本,Direct2.0技術(shù)CUDA5.0forCUDALinux,andMacOS系統(tǒng)CUDA7.0MAC,OS,TOOLKITLinuxandMacToolkit10.0CUDA11.0Windows,LinuxandMac1.31.3GPU生態(tài)體系:以AMDROCm全稱為RadeonOpenComputingplatforM,是基于AMDGPU系列開源設(shè)計(jì)的計(jì)算生態(tài),其目標(biāo)是建立與NVIDIACUDA生態(tài)可替代的平CParallelHCCROCmDirectGPUROCn1)擴(kuò)大支持和訪問范圍。支持AMDInstinctMI210和AMDRadeonProW6800的工作站GPU。2)性能優(yōu)化。FP64矩陣操作能夠更好地進(jìn)行高速緩存處理,以及改善內(nèi)核啟動(dòng)延遲和運(yùn)行時(shí)間。3)助力開發(fā)者研發(fā)。提供、預(yù)包裝的HPC和AI/ML框架,可隨時(shí)在AMDInfinityHub上下載。4)易于獲取資源。在ROCm信息門戶、AMD社區(qū)支持下,能夠遠(yuǎn)程讀取AMD(AAC),用于開發(fā)、測(cè)試和面向任意一種工作負(fù)載,Om堆棧都包括部署和管理工具、優(yōu)化庫以及編程和系統(tǒng)工具。其中,系統(tǒng)工具包括編譯、調(diào)試、性能分析 部署和管理工具簡化了部署和運(yùn)行HPC和ML代碼的過程,包括驗(yàn)證套件以確保設(shè)備環(huán)境能夠承載軟件運(yùn)行。ROCmDataCenterTool有助于收集作架 設(shè)備驅(qū)動(dòng)和運(yùn)行時(shí)環(huán)境支持RedHatEnterpriseLinux、SUSELinuxEnterpriseServerDistribution
UbuntuLinux。ROCm的優(yōu)勢(shì)是,供應(yīng)商能夠很容易地為他們的加速器創(chuàng)建設(shè)備驅(qū)動(dòng)程序,從而擴(kuò)大了平臺(tái)的使用范圍和多樣性。 VIIA市場(chǎng)份額雖有波動(dòng),但長期高于%,與其產(chǎn)品性能優(yōu)勢(shì)和生態(tài)構(gòu)建優(yōu)勢(shì)密不可分。006年起,英偉達(dá)PU架構(gòu)保持約每兩年更新一次的節(jié)奏。在這一節(jié)奏下,英偉達(dá)代際之間產(chǎn)品性能提升顯著,生態(tài)構(gòu)建完整,fc系列產(chǎn)品市占率長期超過鐳龍系列,VIIA21年后,A資料來源:JPRGeforce256,Geforce256,臺(tái)eGTXV100被 1999年至今,NVIDIAGeForceGece系列顯卡經(jīng)過二十多年的發(fā)展,產(chǎn)品已經(jīng)涵蓋不同價(jià)位、不同應(yīng)用領(lǐng)域的低、中、高端圖形顯示和通用計(jì)算,是IIA主力產(chǎn)品。8237程CUDA8237程CUDA99系列Iray渲染100200ee400e400130官網(wǎng),中關(guān)村在線, 30系列30系列30系列A100FP64DLSS700600架構(gòu)&16系列20X2900TITANX700資料來源:超能網(wǎng)@資料來源:超能網(wǎng)@AMD顯卡發(fā)展可大致劃分為兩階段:第一階段ATI時(shí)代從1985年至2006年,第二階段從自早期開始,AMD分為兩路研發(fā),兼顧高端顯卡市場(chǎng)和低端顯卡市場(chǎng),其中,高端產(chǎn)品如Radeon8500、RadeonX1800XT等;從高端顯卡中衍生出多款低端顯卡產(chǎn)品,包括Radeon9000、9000Pro、9100、9200以及9250。9500&XHD2900HD3870HDnHD150110PolarisPolaris2012年發(fā)布RadeonHD系列,AMD在架構(gòu)上實(shí)現(xiàn)創(chuàng)新,推出GCN架構(gòu),并且是業(yè)界第一款采用28納米工藝制程的GPU圖形芯片。在圖R9HDR9HDRXR9FuryRXRXVegaRXRXRXRXRXRX院博士伊凡資料來源:太平洋電腦 資料來源:百家號(hào)@愛集微APP,中信證券研究 1996年,3Dfx憑借Voodoo成為全球3D顯卡和GPU制造領(lǐng)域的壟斷者。1997年,NVIDIA推出的NV3(RIVA128)有128bit的2D、3D加速圖形核心,采用0.35微米工藝,支持微軟Direct3D接口,且性價(jià)比高于Voodoo,被OEM廠商廣泛使用。Geforce256采用技術(shù)包括硬件變換、“T&L”、立方環(huán)境材質(zhì)貼圖和頂點(diǎn)混合、凹凸映射貼圖、雙重紋理四像素256位渲染引擎、紋理壓縮等,兼容DirectX和OpenGL,被稱為世界上第一款GPU。此前如頂點(diǎn)變換必須在CPU中完成,光柵化后像素有限等,而GPU將這些NvidiaGeforce資料來源:百家號(hào)@南京1
資料來源:搜狐@戰(zhàn)略失誤:芯片廠商涉足板卡制造領(lǐng)域面臨困難。3Dfx收購板卡制造商STB,希望獨(dú)自生產(chǎn)Voodoo顯卡,但二者的合作并沒有表現(xiàn)出1+1>2的效果,反而拖慢新品發(fā)布進(jìn)度,令3Dfx丟掉不少市場(chǎng)份額。同時(shí)失去原有板卡廠商合作伙伴,DIAMOND、GIGABYTE、 資料來源:搜狐@
資料來源:百家號(hào)@南京12000年,ATI發(fā)布Radeon256,180nm工藝,內(nèi)有3000萬顆晶體管,具備在當(dāng)時(shí)屬于先進(jìn)技術(shù)的幾何變形、圖像剪切功能、光照效果,性能優(yōu)于Nvidia同代的Geforce256。自此,PC端獨(dú)立顯卡市場(chǎng)形成Radeon系列與Geforce系列對(duì)峙的局面。2002年,ATI發(fā)布R300(即Radeon9700)支持DirectX9.0、4頂點(diǎn)著色器、8像素流水線、256位DDR內(nèi)存總線;2003年發(fā)布Radeon9800pro,性能均超過Nvidia的GeforceFX5900。ATI逐步站穩(wěn)腳跟。隨后NVIDIA的GeforceFX6800又在性能反超Radeon9800。在此
ProfilingandProfilingandtoolsand資料來源:搜狐@2014年,NVIDIA推出Maxwell架構(gòu),使得GeForceGTX在性能、圖形和效率方面取得突破性進(jìn)展,NVIDIA持續(xù)掌握GPU市場(chǎng)的主動(dòng)2015年,AMD推出的FuryX功耗比優(yōu)于NVIDIAkepler2016年5月,英偉達(dá)推出了采用16納米FinFET制程的Pascal架構(gòu),核心頻率與上代相比顯著提升,超頻突破2GHz。2015年,AMD推出的FuryX功耗比優(yōu)于NVIDIAkeplerGeForceGTX1080
NVIDIA押注AI芯片,2017年發(fā)布專為數(shù)據(jù)中心和高性能計(jì)算打造的TeslaV100GPU,采用Volta架構(gòu),有超過210億個(gè)晶體管,是上代TeslaP100的1.37倍。數(shù)據(jù)中心業(yè)務(wù)自此開始快速增長,隨后成為拉動(dòng)NVIDIA營收增長的重要力量。游戲?qū)I(yè)解決方案數(shù)據(jù)中心汽車OEM和其他
資料來源:Statista,中信證券研究 資料來源:3DCenter,中信證券研究AMD產(chǎn)品開始在性能方面追趕NVIDIA。RadeonRX5700系列采用RadeonDNA架構(gòu),即RDNA架構(gòu),其完全兼容GCN架構(gòu)的指令。RadeonRX5700還采用7nm工藝、GDDR6顯存、PCI-e4.0總線,使得其性能跑分超過NVIDIA的GeForceGTX1080。3DCenter數(shù)據(jù)顯示,2022Q2NVIDIA在獨(dú)立GPU的市場(chǎng)份額為79%,AMD則占20%的市場(chǎng)份額,合計(jì)99%。Intel憑借在PC端的優(yōu)勢(shì)占據(jù)剩下1%的市場(chǎng)份額。
NVIDIAAMD資料來源:3DCenter年發(fā)布Turing,2020年Ampere,2022年先后發(fā)布Hopper和Adalovelace。架構(gòu)創(chuàng)新迭代高效,架構(gòu)之間性能提升顯著。而AMD(ATI)也曾憑借Radeon9700、Radeon9800強(qiáng)勢(shì)崛起,近些年的RDNA架構(gòu)也令其市場(chǎng)份額快速提高。NVIDIA前瞻性布局新興領(lǐng)域數(shù)據(jù)中心、自動(dòng)駕駛等領(lǐng)域,推動(dòng)業(yè)績爆發(fā)增長。其自2006年開始構(gòu)筑CUDA生態(tài)并推出Tesla通用計(jì)算 資料來源:超能網(wǎng),中信證券研究 近期,NVIDIA公布了GeForce系列新品GeForceRTX4090,RTX4080和RTX20年月日秋季GIIAGeoceTXaLoelae架構(gòu),臺(tái)積電m級(jí)別工藝,擁有0億晶體管和800個(gè)A核心,與e相比架構(gòu)核心數(shù)量增加約%,能耗比提升近兩倍,可驅(qū)動(dòng)LSS.AdaLovelace架構(gòu)對(duì)于RTCore、TensorCore和SM單元都進(jìn)行了升級(jí),NVIDIA在SM多單元處理器中引入著色器執(zhí)行重排序技術(shù),使NVIDIANVIDIARTX40RTX4080RTX4080RTX4080AdaLovelace(艾達(dá).洛夫萊AdaLovelace(艾達(dá).洛夫AdaLovelace(艾達(dá).洛臺(tái)積電臺(tái)積電臺(tái)積電TensorRT223025201599美元899美元
資料來源:NVIDIA2022.9.20GTC大 汽車:在2022GTC大會(huì)上發(fā)布的NVIDIADRIVEThorSoC系統(tǒng),算力達(dá)到2000TOPS,公司計(jì)劃在2025年裝車。Thor可以將智能汽車發(fā)ARM架構(gòu)CPU芯片。2019年,NVIDIA以70億美元收購Mellanox,2020年推出BlueField-2DPU,成功布局DPU業(yè)務(wù)。 資料來源:
資料來源:NVIDIA官網(wǎng),百度百科ARM,Mellanox官網(wǎng),中信證券研究部繪 RDNA架構(gòu)迭代路徑清晰,代際之前性能提高顯著,即將發(fā)布的RDNA3架構(gòu)相比RDNA2每瓦性能提高超過50%。預(yù)計(jì)2024年前RDNA4架構(gòu)可正式發(fā)布。AMD在2022年11月4日發(fā)布搭載RDNA3的下代顯卡RadeonRX7000系列,其采用5納米制程和小芯片封裝工藝,新一代“無限緩存”。據(jù)稱,旗艦RX7950XT顯卡有15360個(gè)核心,頻率達(dá)2.5GHz,512MB3D緩存,搭配256bitGDDR6顯存,支持PCI-E5.0接口。AMDRDNAAMDRDNA資料來源:AMD
2022年6月19日,MD講述其未來發(fā)展戰(zhàn)略,概述為技術(shù)和產(chǎn)品組合更新、擴(kuò)大數(shù)據(jù)中心解決方案產(chǎn)品組合、加速打造無所不在的I領(lǐng)域領(lǐng)導(dǎo)地位、擴(kuò)大領(lǐng)先、推動(dòng)圖形解決方案發(fā)展勢(shì)頭。AMD希望未來將更多AI功能引入CPU的硬件層面中,如AVX-512VNNI指令集。AMD認(rèn)為,在CPU中運(yùn)行大部分推理很重要并會(huì)是未來趨勢(shì)。AMD預(yù)計(jì)明年發(fā)布全球第一個(gè)數(shù)據(jù)中心APU——InstinctMI300(此前該系列為GPU加速卡),面向訓(xùn)練領(lǐng)域,結(jié)合使用Zen4架構(gòu)的CPU和CDNA3架構(gòu)的GPU。APU是將處理器和獨(dú)顯集成到一個(gè)晶片上,實(shí)現(xiàn)GPU和CPU的融合。AMDAMDRadeonInstinctAMDInstinctAMDInstinctAMDInstinctArchitecture&7nm7nm6nm5nmZen4(APUVega?(3DDieBaseuptoComputeuptoComputeGPUClock1800-1500-1700FP1629.5185383FP3214.723.147.9FP647.411.547.932GB32GB128GB8xupto8xHBM3Memory2.02.43.2Memoryupto8192-Memory11.233.2FormDualSlot.FullDualSlot.Full uptoVerifiedMarketResearch數(shù)據(jù)顯示,2020年,全球GPU市場(chǎng)規(guī)模為254.1億美元,且該機(jī)構(gòu)預(yù)計(jì)2028年市場(chǎng)規(guī)模將達(dá)到2465.1億美元,國際市場(chǎng)上,英偉達(dá)、AMD瓜分市場(chǎng),JonPeddieResearch數(shù)據(jù)顯示2022Q1英偉達(dá)占據(jù)79%市場(chǎng)份額,AMD占據(jù)21%。英偉達(dá)在獨(dú)立
VerifiedMarketResearch(含預(yù)測(cè)),
JonPeddieResearchGPU應(yīng)用場(chǎng)景不斷擴(kuò)大拉動(dòng)GPU市場(chǎng)空間迅猛增長,根據(jù)VerifiedMarketResearch預(yù)測(cè),2027年中國GPU市場(chǎng)規(guī)模將AI&數(shù)據(jù)中心:新一輪AI對(duì)算力需求遠(yuǎn)超以往:ChatGPT類語言大模型底層是2017年出現(xiàn)的Transformer架構(gòu),該架構(gòu)相比傳統(tǒng)的中國人工智能芯片市場(chǎng)規(guī)模(億元中國人工智能芯片市場(chǎng)規(guī)模(億元資料來源:前瞻產(chǎn)業(yè)研究院(含預(yù)測(cè)),年月人工智能實(shí)驗(yàn)室nAI推出了一款對(duì)話系統(tǒng)—tGP,haGP模型從P-.5eI眾預(yù)期。這標(biāo)志著對(duì)話類人工智能可以在大范圍、細(xì)節(jié)問題上給出較合理準(zhǔn)確的答案,并根據(jù)上下文形成一定像人類一樣有邏輯且有創(chuàng)造力的回答。 資料來源:ChatGPT
云端芯片:云端芯片應(yīng)用于云端服務(wù)器,可以進(jìn)一步細(xì)分為推理芯片和訓(xùn)練芯片。根據(jù)甲子光年數(shù)據(jù),0年中國云端芯片市場(chǎng)約.120終端芯片:應(yīng)用于嵌入式、移動(dòng)終端、智能制造、智能家居等領(lǐng)域的I芯片,終端芯片需要低功耗和更高的能效比,但是對(duì)算力的需求012213
資料來源:甲子光年(含預(yù)測(cè)),
資料來源:甲子光年(含預(yù)測(cè)),中信證券研究 智能汽車主流的域控制器采用SoC與MCU結(jié)合的方案,SoC(片上系統(tǒng))由GPU、CPU、AI引擎、DPU等組成。GPU在自動(dòng)駕駛中的作用表現(xiàn)在圖形處理和并行計(jì)算,ADAS平臺(tái)可以利用GPU的并行計(jì)算能力實(shí)時(shí)分析來自激光雷達(dá)、雷達(dá)和紅外攝像頭的傳感器數(shù)據(jù)。特斯拉2顆小鵬1顆小鵬2顆Orin理想2顆Orin蔚來4顆Orin威馬4顆Orin上汽智己2顆
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 【正版授權(quán)】 IEC 63169:2020+AMD1:2024 CSV EN Electrical household and similar cooling and freezing appliances - Food preservation
- 【正版授權(quán)】 IEC 60826:2003 EN-D Design criteria of overhead transmission lines
- 【正版授權(quán)】 IEC 60870-5-104:2006 EN-D Telecontrol equipment and systems - Part 5-104: Transmission protocols - Network access for IEC 60870-5-101 using standard transport profiles
- 護(hù)理導(dǎo)論與護(hù)理程序
- 醬香酒知識(shí)培訓(xùn)課件
- 糖尿病及護(hù)理
- 心臟外科護(hù)理手術(shù)配合
- 妊娠期糖尿病護(hù)理
- 2025年慶八一建軍節(jié)主題活動(dòng)方案策劃書
- 2025年精神文明建設(shè)工作方案
- 專題09 產(chǎn)業(yè)區(qū)位與產(chǎn)業(yè)發(fā)展【知識(shí)精研】高考地理二輪復(fù)習(xí)
- 2025年部門預(yù)算支出經(jīng)濟(jì)分類科目說明表
- 《陸上風(fēng)電場(chǎng)工程概算定額》NBT 31010-2019
- 2024年山東省事業(yè)單位歷年面試題目及答案解析50套
- YB-4001.1-2007鋼格柵板及配套件-第1部分:鋼格柵板(中文版)
- 維生素D教學(xué)講解課件
- 診所備案申請(qǐng)表格(衛(wèi)健委備案)
- 案例收球器盲板傷人事故
- 《雷鋒叔叔_你在哪里》說課稿
- bim畢業(yè)設(shè)計(jì)--精選文檔
- 某紡織廠供配電系統(tǒng)設(shè)計(jì)(DOC25頁)
評(píng)論
0/150
提交評(píng)論