GPU行業(yè)市場前景及投資研究報告:“AI算力GPU”AI產(chǎn)業(yè)化加速智能大時代開啟_第1頁
GPU行業(yè)市場前景及投資研究報告:“AI算力GPU”AI產(chǎn)業(yè)化加速智能大時代開啟_第2頁
GPU行業(yè)市場前景及投資研究報告:“AI算力GPU”AI產(chǎn)業(yè)化加速智能大時代開啟_第3頁
GPU行業(yè)市場前景及投資研究報告:“AI算力GPU”AI產(chǎn)業(yè)化加速智能大時代開啟_第4頁
GPU行業(yè)市場前景及投資研究報告:“AI算力GPU”AI產(chǎn)業(yè)化加速智能大時代開啟_第5頁
已閱讀5頁,還剩110頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

證券研究報告半導(dǎo)體行業(yè)評級:領(lǐng)先大市-A華金證券電子團隊—走進“芯”時代系列深度之六十“AI算力GPU”AI產(chǎn)業(yè)化再加速,智能大時代已開啟——GPU行業(yè)深度報告2023年3月26日核心觀點(1)?

在芯片算力快速提升、日趨龐大的數(shù)據(jù)量共同支撐下,AI算法迭代升級加速。AI的發(fā)展經(jīng)歷了很長時間的積累,其能不斷跨越科學(xué)與應(yīng)用之間的鴻溝主要得益于技術(shù)突破、行業(yè)落地、產(chǎn)業(yè)協(xié)作等多方面的推動,而技術(shù)突破是其中最為關(guān)鍵的要素。從起步階段發(fā)展到當(dāng)下深度學(xué)習(xí)階段,算法、數(shù)據(jù)和算力構(gòu)成了AI三大基本要素,并共同推動AI向更高層次的感知和認知發(fā)展。算法方面,目前深度學(xué)習(xí)仍然是AI技術(shù)發(fā)展的主導(dǎo)路線,但是早期所使用的有監(jiān)督學(xué)習(xí)方式由于受限于對大量標(biāo)注數(shù)據(jù)依賴與理解能力缺乏,而且模型通用性較差,正逐步被新的技術(shù)所取代,在芯片算力的快速提升、日益龐大的數(shù)據(jù)量這兩者的支撐下,新算法正處于加速迭代升級過程中。?

自監(jiān)督學(xué)習(xí)的算法模型快速發(fā)展,“預(yù)訓(xùn)練+精調(diào)”的開發(fā)范式邁向成熟,新一輪AI技術(shù)產(chǎn)業(yè)化之路開啟。谷歌、臉書等多家企業(yè)先后發(fā)布使用自監(jiān)督學(xué)習(xí)的算法模型,通過挖掘無標(biāo)注數(shù)據(jù)的監(jiān)督信息,減少人為干預(yù)?,F(xiàn)階段自監(jiān)督學(xué)習(xí)本質(zhì)上仍依賴規(guī)范化、標(biāo)簽化的數(shù)據(jù),主要借助預(yù)訓(xùn)練模型構(gòu)筑并學(xué)習(xí)數(shù)據(jù)特征?!邦A(yù)訓(xùn)練”的做法一般是將大量低成本收集的訓(xùn)練數(shù)據(jù)放在一起,經(jīng)過某種預(yù)訓(xùn)方法去學(xué)習(xí)其中的共性,然后將其中的共性“移植”到特定任務(wù)的模型中,再使用相關(guān)特定領(lǐng)域的少量標(biāo)注數(shù)據(jù)進行“微調(diào)”,這樣的話,模型只需要從“共性”出發(fā),去“學(xué)習(xí)”該特定任務(wù)的“特殊”部分即可。預(yù)訓(xùn)練模型成功的關(guān)鍵是自監(jiān)督學(xué)習(xí)與Transformer的結(jié)合。預(yù)訓(xùn)練大模型在海量數(shù)據(jù)的學(xué)習(xí)訓(xùn)練后具有良好的通用性和泛化性,用戶基于大模型通過零樣本、小樣本學(xué)習(xí)即可獲得領(lǐng)先的效果,同時“預(yù)訓(xùn)練+精調(diào)”等開發(fā)范式,讓研發(fā)過程更加標(biāo)準(zhǔn)化,顯著降低了人工智能應(yīng)用門檻。整體上來看,關(guān)于本輪AI技術(shù)突破所帶來的產(chǎn)業(yè)化變局,我們有三個核心觀點:1、基于GPT為代表的大模型AI的通用能力,未來幾年大模型AI的滲透廣度、深度和速度有可能會超預(yù)期;2、ChatGPT采用的是閉源模型,其加速的產(chǎn)業(yè)落地會刺激更多的廠商加大大模型AI的研發(fā)投入,進而推動AI產(chǎn)業(yè)化發(fā)展;3、大模型AI通用能力的提升,帶動的將不僅僅是云計算市場的增長,伴隨著多種技術(shù)與商業(yè)化路徑的逐步成熟,云、邊緣、端的增量市場空間均有望漸次打開。核心觀點(2)?

云端計算進入高性能計算時代,大模型訓(xùn)練仍以GPU為主。雖然AI芯片目前看有GPU、ASIC、CPU、FPGA等幾大類,但是基于幾點原因,我們判斷GPU仍將是訓(xùn)練模型的主流硬件:1、Transformer架構(gòu)是最近幾年的主流,該架構(gòu)最大的特點之一就是能夠利用分布式GPU進行并行訓(xùn)練,提升模型訓(xùn)練效率;2、ASIC的算力與功耗雖然看似有優(yōu)勢,但考慮到AI算法還是處于一個不斷發(fā)展演進的過程,用專用芯片部署會面臨著未來算法更迭導(dǎo)致芯片不適配的巨大風(fēng)險;3、英偉達強大的芯片支撐、生態(tài)、算法開源支持。?

模型小型化技術(shù)逐步成熟,從訓(xùn)練走向推理,云、邊、端全維度發(fā)展。我們認為至少有四大投資主線應(yīng)持續(xù)關(guān)注:1、GPU方面,在英偉達的推動下,其從最初的顯卡發(fā)展到如今的高性能并行計算,海外大廠已經(jīng)具備了超過20年的技術(shù)、資本、生態(tài)、人才等儲備,形成了大量的核心技術(shù)專利,而且也能充分享有全球半導(dǎo)體產(chǎn)業(yè)鏈的支撐,這都或是目前國內(nèi)廠商所缺失的。近幾年在資本的推動下,國內(nèi)涌現(xiàn)出數(shù)十家GPU廠商,各自或都具備一定的發(fā)展基礎(chǔ),但整體經(jīng)營時間較短,無論從技術(shù)積淀、產(chǎn)品料號布局、高端料號性能來說,與國外大廠仍具備較大差距。但國產(chǎn)化勢在必行,國內(nèi)相關(guān)產(chǎn)業(yè)鏈重點環(huán)節(jié)也積極對上游芯片原廠進行扶持,國產(chǎn)算力芯片需要不斷迭代以實現(xiàn)性能的向上提升,后續(xù)持續(xù)關(guān)注相關(guān)廠商料號升級、生態(tài)建設(shè)和客戶突破;2、

AI在端側(cè)設(shè)備應(yīng)用普及是大勢所趨,目前,知識蒸餾、剪枝、量化等模型小型化技術(shù)在逐步成熟,AI在云、邊、端全方位發(fā)展的時代已至。除了更加廣泛的應(yīng)用帶來需求量的提升外,更復(fù)雜算法帶來更大算力的需求也將從另一個維度推動市場擴容;3、數(shù)據(jù)的高吞吐量需要大帶寬的傳輸支持,光通信技術(shù)作為算力產(chǎn)業(yè)發(fā)展的支撐底座,具備長期投資價值;4、Chiplet技術(shù)可以突破單一芯片的性能和良率等瓶頸,降低芯片設(shè)計的復(fù)雜度和成本?;谙駽hiplet模式的設(shè)計轉(zhuǎn)型,已經(jīng)是大型芯片廠商的共識,相關(guān)產(chǎn)業(yè)鏈具備長期投資價值。?

建議關(guān)注:瑞芯微、晶晨股份、星宸科技(待上市)、全志科技、北京君正、中科藍訊、富瀚微、恒玄科技?

風(fēng)險提示:技術(shù)創(chuàng)新風(fēng)險、宏觀經(jīng)濟和行業(yè)波動風(fēng)險、國際貿(mào)易摩擦風(fēng)險。總目錄由專用走向通用,GPU賽道壁壘高筑產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競賽再加速全維智能化大時代,國產(chǎn)算力行則必至建議關(guān)注產(chǎn)業(yè)相關(guān)風(fēng)險提示分目錄(1)由專用走向通用,GPU賽道壁壘高筑?

1.1

什么是GPU?

1.14

走向新場景的GPGPU?

1.2

始于圖形處理設(shè)備?

1.15GPU與GPGPU的對比?

1.3

浮點計算能力與可編程性結(jié)合?

1.4GPU發(fā)展三大方向?

1.16GPGPU與CPU的對比?

1.17

并行計算發(fā)展的核心?

1.5

英傳達顯卡發(fā)展歷程?

1.18SIMT,主流GPU的系統(tǒng)架構(gòu)核心?

1.19GPGPU架構(gòu),以A100為例?

1.6GeForceRTX40系列,時代最強?

1.7

英特爾的核顯?

1.20Fermi是第一個完整的GPU計算架構(gòu)?

1.21

通用算力提升是英偉達GPU架構(gòu)演進的重點之一?

1.22

多方面構(gòu)建的高壁壘?

1.8

核顯與獨顯性能對比?

1.9

圖形流水線是GPU工作的通用模型?

1.10

統(tǒng)一渲染架構(gòu)的推出開啟了通用計算大時代?

1.11

從簡單到越來越復(fù)雜的流水線?

1.12

光線追蹤時代開啟?

1.23

人才與研發(fā)投入,以英偉達為例?

1.24

國外廠商多年間構(gòu)筑了龐大的專利池?

1.25

英偉達全棧布局構(gòu)筑強大生態(tài)?

1.26

走向異構(gòu),海外廠商橫向布局不斷?

1.13

光線追蹤算法要求的計算量巨大分目錄(2)產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競賽再加速?

2.1AI技術(shù)賦能實體經(jīng)濟面臨的瓶頸?

2.2

ChatGPT的破圈?

2.14

數(shù)據(jù)中心邁入“高算力”時代,兵家必爭?

2.15

英偉達數(shù)據(jù)中心業(yè)務(wù)快速增長?

2.16

自動駕駛研發(fā)兩大商業(yè)路線?

2.17

自動駕駛實現(xiàn)的兩種技術(shù)路線?

2.18

單車智能化推動算力升級加速?

2.19

自動駕駛具備廣闊市場前景?

2.3

ChatGPT的成功離不開預(yù)訓(xùn)練大模型?

2.4

預(yù)訓(xùn)練模型的發(fā)展歷程?

2.5Transformer架構(gòu)成主流?

2.6

自監(jiān)督學(xué)習(xí)與Transformer的結(jié)合?

2.7

大模型的突現(xiàn)能力?

2.8

參數(shù)量爆發(fā)式增長的ChatGPT?

2.9

預(yù)訓(xùn)練大模型,第三波AI發(fā)展的重大拐點?

2.10

生成式AI、邊緣AI技術(shù)即將步入成熟期?

2.11

大模型是大算力和強算法結(jié)合的產(chǎn)物?

2.12AI芯片三劍客?

2.13

訓(xùn)練端GPU擔(dān)綱分目錄(3)全維智能化大時代,國產(chǎn)算力行則必至???????????????3.1

全球數(shù)據(jù)中心負載任務(wù)量快速增長??????????????3.16

先求有,再求好3.2

全球計算產(chǎn)業(yè)投資空間巨大3.3

預(yù)訓(xùn)練大模型對于GPU的需求3.4

國內(nèi)市場需求將保持高增長3.5

云計算及云部署方式3.17

生態(tài)先兼容主流,未來將走向自建3.18

國產(chǎn)之路已開啟,部分國產(chǎn)GPU設(shè)計廠商列表3.19GPU發(fā)展離不開全球產(chǎn)業(yè)鏈的支撐3.20

制程升級對于算力芯片性能提升具有較高貢獻度3.21

摩爾定律發(fā)展趨緩3.6

不同云部署方式的市場占比3.7

企業(yè)上云持續(xù)向細分行業(yè)滲透3.8

從“資源上云”邁入“深度用云”3.9

信創(chuàng)從試點走向推廣3.22

Chiplet技術(shù)潛力大3.23

Chiplet技術(shù)發(fā)展歷程3.24

行業(yè)巨頭推動,產(chǎn)業(yè)加速落地3.25

采用Chiplet技術(shù)的產(chǎn)品不斷出現(xiàn)3.26

算力兩大演進方向:更大算力&更多樣化應(yīng)用3.27

存量替代與增量成長并存3.10

公有云主要參與廠商3.11

云計算產(chǎn)業(yè)鏈3.12

集成顯卡與獨立顯卡市場份額3.13

獨立顯卡英偉達一家獨大3.14

性能強大的H1003.28

高吞吐量離不開高速傳輸3.29

光通信前景可期3.15

國產(chǎn)廠商兩條發(fā)展路徑:GPU和GPGPU分目錄(4)建議關(guān)注產(chǎn)業(yè)相關(guān)?

4.1

瑞芯微?

5.1

海光信息?

5.2

龍芯中科?

5.3

景嘉微?

4.2

晶晨股份?

4.3

星宸科技(待上市)?

4.4

全志科技?

4.5

北京君正?

4.6

中科藍訊?

4.7

富瀚微?

5.4

寒武紀(jì)-U?

5.5?

5.6

芯原股份-U?

5.7

華大九天?

5.8

概倫電子?

5.9

長電科技?

5.10

華天科技?

5.11

通富微電?

5.12

炬芯科技?

5.13

源杰科技?

5.14

光迅科技?

5.15

摩爾線程(未上市)?

4.8

恒玄科技風(fēng)險提示?

技術(shù)創(chuàng)新風(fēng)險?

宏觀經(jīng)濟和行業(yè)波動風(fēng)險?

國際貿(mào)易摩擦風(fēng)險目錄01由專用走向通用,GPU賽道壁壘高筑?????????1.1什么是GPU?????????1.10統(tǒng)一渲染架構(gòu)的推出開啟了通用計算大時代1.11從簡單到越來越復(fù)雜的流水線1.12光線追蹤時代開啟????????1.19GPGPU架構(gòu),以A100為例1.2始于圖形處理設(shè)備1.20Fermi是第一個完整的GPU計算架構(gòu)1.21通用算力提升是英偉達GPU架構(gòu)演進的重點之一1.22多方面構(gòu)建的高壁壘1.3浮點計算能力與可編程性結(jié)合1.4GPU發(fā)展三大方向1.13光線追蹤算法要求的計算量巨大1.14走向新場景的GPGPU1.5英傳達顯卡發(fā)展歷程1.6GeForceRTX40系列,時代最強1.7英特爾的核顯1.23人才與研發(fā)投入,以英偉達為例1.24國外廠商多年間構(gòu)筑了龐大的專利池1.25英偉達全棧布局構(gòu)筑強大生態(tài)1.26走向異構(gòu),海外廠商橫向布局不斷1.15GPU與GPGPU的對比1.16GPGPU與CPU的對比1.8核顯與獨顯性能對比1.9圖形流水線是GPU工作的通用模型1.17并行計算發(fā)展的核心1.18SIMT,主流GPU的系統(tǒng)架構(gòu)核心產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競賽再加速全維智能化大時代,國產(chǎn)算力行則必至建議關(guān)注產(chǎn)業(yè)相關(guān)風(fēng)險提示1.由專用走向通用,GPU賽道壁壘高筑1.1

什么是GPUSOC中的GPU模塊?

圖形處理器(graphicsprocessingunit,縮寫:GPU),又稱顯示核心、視覺處理器、顯示芯片,是一種專門在個人電腦、工作站、游戲機和一些移動設(shè)備(如平板電腦、智能手機等)上做圖像和圖形相關(guān)運算工作的微處理器。?

NVIDIA公司在1999年發(fā)布GeForce256圖形處理芯片時首先提出GPU的概念。從此NVIDIA顯卡的芯片就用這個新名字GPU來稱呼。GPU使顯卡削減了對CPU的依賴,并執(zhí)行部分原本CPU的工作,尤其是在3D圖形處理時。GPU與顯卡資料:痞客邦,華金證券研究所資料:痞客邦,華金證券研究所1.由專用走向通用,GPU賽道壁壘高筑1.2

始于圖形處理設(shè)備?

最早計算機是黑白顯示的時代,機器對于顯示的要求極低,隨著計算機的普及和軟件的多樣化,使用者對于顯示的要求越來越高。VGA(VideoGraphicsArray,視頻圖形陣列)是一種標(biāo)準(zhǔn)的顯示接口,是IBM于1987年提出的一個使用模擬信號的電腦顯示標(biāo)準(zhǔn)。VGA標(biāo)準(zhǔn)由于可以呈現(xiàn)的彩色顯示能力大大加強,因此迅速成為了顯示設(shè)備的標(biāo)準(zhǔn),也推動了VGACard也即是顯卡的誕生。早期的VGACard的唯一功能是輸出圖像,圖形運算全部依賴CPU,當(dāng)微軟Windows操作系統(tǒng)出現(xiàn)后,大量的圖形運算占據(jù)了CPU的大量資源,如果沒有專門的芯片來處理圖形運算,Windows界面運作會大受影響而變得卡頓,因此出現(xiàn)專門處理圖形運算的芯片成為必然趨勢。?

1993年1月,英偉達創(chuàng)立,1999年,英偉達發(fā)布了劃時代的產(chǎn)品GeForce256,首次推出了所謂圖形處理器(GPU,GraphicProcessing?

Unit)的概念,它帶來了3D圖形性能的一次革命。圖:顯卡發(fā)展歷程資料:51CTO,華金證券研究所繪制1.由專用走向通用,GPU賽道壁壘高筑1.3

浮點計算能力與可編程性結(jié)合?

GeForce256

是一款用于實時圖形處理的專用處理器,GeForce圖形處理器的發(fā)布,實現(xiàn)了頂點的矩陣變換和光照計算,圖形實時處理應(yīng)用需要高內(nèi)存帶寬和大量的浮點計算能力。2001年英偉達發(fā)布了第三代顯示核心GeForce3,GeForce3不僅集成了來自之前GeForce256和GeForce2芯片的“靜態(tài)”座標(biāo)轉(zhuǎn)換和照明引擎,更增加了稱為“頂點著色單元”的可編程頂點處理器功能。游戲開發(fā)者可借由加上頂點程序,讓游戲產(chǎn)生令人驚艷的全新效果。?

可編程性與浮點計算能力相結(jié)合,基于GPU的通用計算也開始出現(xiàn),GPU朝著通用計算的方向持續(xù)演進。2006年,英偉達CUDA(ComputeUnifiedDeviceArchitecture,統(tǒng)一計算設(shè)備架構(gòu)),及對應(yīng)工業(yè)標(biāo)準(zhǔn)的OpenCL的出現(xiàn),讓GPU實現(xiàn)更廣泛的通用計算功能,GPGPU的概念落地。NVidiaTesla架構(gòu)GPU的圖形(處理)流水線資料:搜狐網(wǎng),華金證券研究所資料:《深入GPU硬件架構(gòu)及運行機制》博客園,華金證券研究所1.由專用走向通用,GPU賽道壁壘高筑1.4GPU發(fā)展三大方向?

GPU最初用在PC和移動端上運行繪圖運算工作的微處理器,與CPU集成以集成顯卡(核顯)的形態(tài)發(fā)揮功能。NVIDIA于2007年率先推出獨立GPU(獨顯),使其作為“協(xié)處理器”在PC和服務(wù)器端負責(zé)加速計算,承接CPU計算密集部分的工作負載,同時由CPU繼續(xù)運行其余程序代碼。?

2019年NVIDIA的中國GTC大會設(shè)置了兩大主題:AI和圖形。從大會的關(guān)注重點可以看出,GPU未來趨勢主要是3個:大規(guī)模擴展計算能力的高性能計算(GPGPU)、人工智能計算(AIGPU)、更加逼真的圖形展現(xiàn)(光線追蹤RayTracingGPU)。英偉達三大產(chǎn)品系列四核心Intel處理器的die

shot框圖(帶有Gen9核顯)資料:CSDN,華金證券研究所資料:英偉達,華金證券研究所1.由專用走向通用,GPU賽道壁壘高筑1.5

英傳達顯卡發(fā)展歷程時間

發(fā)布型號

制程1995STG-2000X

500nm采用第一代NV1核心,核心頻率12MHz,同時支持2D、3D處理能力亮點1998

RIVA128

350nm第一款成功的顯示核心。第一款支持微軟Direct3D加速的圖形芯片,也是第一個提供硬件三角形引擎的128bit圖形芯片,加入了對OpenGL技術(shù)的支持1999

RivaTNT2

250nm奠定英偉達顯卡王朝的基石,核心頻率和顯存容量都有了極大的提升,從這一代開始,英偉達開始產(chǎn)品進行了市場化細分GeForce1999

256首次推出了所謂圖形處理器(GPU)的概念,增加了PixelShader流水線的數(shù)目,支持硬件T&L引擎,第一款硬件支持T&L的顯卡,亦支援MPEG-2硬件視頻加速。Quadro也是以220nmGeForce256為基礎(chǔ)開始研發(fā)。2001

GeForce3

180nm英偉達首款支持DirectX

8.0的產(chǎn)品,并支持可編程的T&L引擎GeForce42002

Ti4200GeForce150nm新一代的T&L引擎,并支持高效率的反鋸齒技術(shù)2004

6800130nm渲染管線首次突破性增長到16條,采用GDDR3顯存,頻率達到了1.1GHz。同年,英偉達SLI(可擴展的鏈接接口)技術(shù)問世,單臺PC的圖形處理能力大大提升。世界上第一塊支持DirectX10的PC桌面顯卡。GeForce8采用統(tǒng)一流水線結(jié)構(gòu),傳統(tǒng)顯示核心的架構(gòu)分為頂點著色引擎和像素著色引擎。所謂統(tǒng)一渲染,即GPU中不再有單獨的頂端渲染單元和像素渲染單元,而是由一個通用的渲染單元同時完成頂點和像素渲染任務(wù)。統(tǒng)一渲染架構(gòu)具有硬件利用效率高以及編程靈活的優(yōu)點,進一步提升了GPU內(nèi)部運算單元的可編GeForce2006

8800GTX

90nm

程性,讓GPU運行高密集度的通用計算任務(wù)就成為可能GeForce采用英偉達推出全新一代的Fermi架構(gòu),F(xiàn)ermi架構(gòu)GPU產(chǎn)品在保持圖形性能的前提下,將通用計算的重要性提升到前所未有的高度,大規(guī)模GPU計算從之開始。30億個晶體管的大芯片,2010

GTX48040nm

全局ECC設(shè)計、可讀寫緩存、更大的sharedmemory、甚至出現(xiàn)了分支預(yù)測概念。Fermi是英偉達最后一款在游戲顯卡上保留強悍雙精度的微架構(gòu)采用Kepler架構(gòu),與前一代的Fermi架構(gòu)相比,Kepler架構(gòu)不僅僅是性能的提升,功耗和溫度上也得到了極大的改善。Fermi架構(gòu)中英偉達主要專注于提升計算與曲面細分的性能。然而在Kepler架構(gòu)中,英偉達轉(zhuǎn)向了提升效率、可編程性與性能,效率的提升來自采用了統(tǒng)一的GPU時鐘、簡化的靜態(tài)指令調(diào)度和更加優(yōu)化的每瓦性能。專用的雙精度CUDA核心被用來GeForce2013

GTXTitan

28nm

彌補KeplerCUDA核心為了節(jié)省芯片面積而放棄的雙精度計算能力采用英偉達第四代GPU架構(gòu)Maxwell架構(gòu),Kepler的改進版架構(gòu)。最明顯的變化是在SMX單元和GPC單元上,Maxwell的SMM(之前叫SMX)單元從之前Kepler的包含192個CUDACore下降GeForce2014

GTX970GeForce到128個,但發(fā)射器從之前的每SMX一個變?yōu)榱嗣縎MM四個,目的是降低每個SMM單元的運算壓力提升效率,增加了兩個寄存器,然后L1緩存翻倍,GPC單元的L2緩存增加到了2M。28nm

Maxwell將具備以下三大特性:提升圖形性能,降低編譯難度(這應(yīng)該歸功于ARMv8核心和統(tǒng)一內(nèi)存尋址增強技術(shù))和提高能耗比。這一代顯卡的工藝和架構(gòu)全面升級。架構(gòu)方面,采用了Pascal架構(gòu),Pascal是Maxwell的接替者,增強了異步計算功能實現(xiàn)硬件層了對DirectXAPI的更高版本(DirectX12Feature2016

GTX1080

16nm

Level12_1)的支持,高端產(chǎn)品還配備帶寬更高的HBM2顯存,性能和能耗比都有了很大提升GeForce

第一代GeForceRTX系列,支持光線/路徑追蹤硬件加速,使實時光線追蹤成為可能。新GeForce顯卡最大的亮點就是集成了光線追蹤核心的TuringGPU,從技術(shù)上拉開了與上代顯卡2018

RTX2080

12nm

的差距,NVIDIA宣布圖靈架構(gòu)的時候表示新一代顯卡的光線追蹤性能是現(xiàn)有Pascal顯卡的6倍之多GeForce

三星

采用了全新的Ampere安培架構(gòu),相比RTX20系的圖靈架構(gòu)是革命性的提升,Ampere集成了第二代RT光線追蹤核心、第三代Tensor張量核心,并支持PCIE4.0、DisplayPort1.4a、2020

RTX3090

8nm

HDMI2.1GeForce采用最新的AdaLovelace架構(gòu),較上一代Ampere晶體管和CUDA核心數(shù)量提升70%,著色器、光追、深度學(xué)習(xí)性能均實現(xiàn)重大飛躍。AdaLovelace架構(gòu)的創(chuàng)新大體上可以分為三2022

RTX40系列

4nm

個板塊,分別是帶來了新的全景光線追蹤、著色器執(zhí)行重排序(SER)和DLSS3資料:英偉達,維基百科,華金證券研究所整理1.由專用走向通用,GPU賽道壁壘高筑1.6GeForceRTX40系列,時代最強?

2022秋季GTC大會上,英偉達發(fā)布GeForceRTX?40系列GPU,旨在為游戲玩家和創(chuàng)作者提供革命性性能,其中新旗艦產(chǎn)品RTX4090GPU的性能相較上一代提升最高可達4倍。作為全球首款基于全新NVIDIA?

AdaLovelace架構(gòu)的GPU,RTX40系列在性能和效率上都實現(xiàn)了巨大的代際飛躍,根據(jù)NVIDIA創(chuàng)始人兼首席執(zhí)行官黃仁勛的介紹,RTX光線追蹤和神經(jīng)網(wǎng)絡(luò)渲染的時代正在全面展開。?

RTX40系列GPU具有一系列新的技術(shù)創(chuàng)新:包括流式多處理器具有高達83TFLOPS的著色器能力、第三代RTCores的有效光線追蹤計算能力達到191TFLOPS、第四代TensorCores具有高達1.32Petaflops的FP8張量處理性能、著色器執(zhí)行重排序(SER)通過即時重新安排著色器負載來提高執(zhí)行效率、Ada光流帶來2倍的性能提升、架構(gòu)上改進來實現(xiàn)與TSMC4N定制工藝技術(shù)緊密結(jié)合等。資料:電腦評測網(wǎng),華金證券研究所1.由專用走向通用,GPU賽道壁壘高筑1.7

英特爾的核顯?

1998年英特爾推出了Inteli740獨立顯卡并進入顯卡市場,隨后它被整合進了810/815芯片組并誕生了Intel的集成顯卡家族。2010年英特爾推出的Clarkdale處理器是首款整合GPU的CPU,這款處理器由32nm制程CPUDie和45nm的GPUDie共同封裝在一塊PCB上組成,兩顆芯片使用QPI總線相連。2011年英特爾推出的SandyBridge架構(gòu)處理器把CPU和GPU做到同一塊芯片上,進入核顯時代。英特爾早期通過封裝將CPU、GPU兩顆芯片封裝在一起Skylake處理器核心(CPU、GPU在同一顆芯片上)資料:超能網(wǎng),華金證券研究所資料:超能網(wǎng),華金證券研究所1.由專用走向通用,GPU賽道壁壘高筑1.8

核顯與獨顯性能對比?

2022年1月25日,搭載第12代酷睿AlderLake-H處理器的筆記本正式上市,采用最新一代Intel7制程工藝,內(nèi)置IrisXEGPU,擁有48組EU單元,加速頻率高達1450MHz。英特爾IrisXEGPU的跑分Intel第12代酷睿性能圖資料:量子位,華金證券研究所資料:zmmoo,華金證券研究所1.由專用走向通用,GPU賽道壁壘高筑1.9

圖形流水線是GPU工作的通用模型?

圖形流水線(graphicspipeline),也叫圖形管線,指的是一連串的圖形處理任務(wù),這一系列的工作先后有序、不可顛倒,因此得以有這個形象的稱呼。圖形流水線是GPU工作的通用模型,它以某種形式表示的三維場景為輸入,輸出二維的光柵圖形到顯示器。圖:圖形流水線資料:CSDN,華金證券研究所1.由專用走向通用,GPU賽道壁壘高筑1.10

統(tǒng)一渲染架構(gòu)的推出開啟了通用計算大時代?

GPU的硬件結(jié)構(gòu)從固定功能流水線架構(gòu)發(fā)展為大規(guī)模并行的統(tǒng)一染色器架構(gòu)。所謂統(tǒng)一渲染,即GPU中不再有單獨的頂端渲染單元和像素渲染單元,而是由一個通用的渲染單元同時完成頂點和像素渲染任務(wù)。為了實現(xiàn)這一點,圖形指令必須先經(jīng)過一個通用的解碼器、將頂點和像素指令翻譯成統(tǒng)一渲染單元可直接執(zhí)行的渲染微指令,而統(tǒng)一渲染單元其實就是一個高性能的浮點和矢量計算邏輯,它具有通用和可編程屬性。在統(tǒng)一渲染架構(gòu)的GPU中,VertexShader和PixelShader概念都將廢除同時代之以ALU。ALU是個完整的圖形處理體系,它既能夠執(zhí)行對頂點操作的指令(代替VS),又能夠執(zhí)行對象素操作的指令(代替PS)?;诮y(tǒng)一渲染架構(gòu),ShaderCore被挖掘出了更多的使用方法,比如通用計算。早期的GPU只支持固定管線統(tǒng)一渲染架構(gòu)資料:CSDN,華金證券研究所資料:CSDN,華金證券研究所1.由專用走向通用,GPU賽道壁壘高筑1.11

從簡單到越來越復(fù)雜的流水線當(dāng)代GPU渲染管線示意圖?

以前GPU只支持固定管線,并且不支持編程,2002年,GPU在VertexOperations和FragmentOperations這兩個模塊中具有了可編程功能,2006年GPU流水線中增加了一種新的模塊,GeometryShader(幾何元著色器),使得圖形程序開發(fā)者在可編程渲染管道(programablerender

pipline)下能夠更大的發(fā)揮自由度。再之后,Tessellation(細分曲面技術(shù))、Mesh著色器等等功能的加入,GPU的流水線變得越來越復(fù)雜。?

GPU要實現(xiàn)對二維屏幕上每一個像素點的輸出,需要很多個并行工作的著色處理器shaderprocessor同步工作,示意圖中將硬件中的四個小處理器連為一組,軟件層面將各類渲染任務(wù)按4個thread打成一個卷warp發(fā)給硬件,同時加入了多warp切換的機制,保證了GPU任務(wù)執(zhí)行的高效性。資料:新浪網(wǎng),華金證券研究所1.由專用走向通用,GPU賽道壁壘高筑1.12

光線追蹤時代開啟?

光線跟蹤是一種真實地顯示物體的方法,該方法由Appel在1968年提出。光線跟蹤方法沿著到達視點的光線的反方向跟蹤,經(jīng)過屏幕上每一個象素,找出與視線相交的物體表面點P0,并繼續(xù)跟蹤,找出影響P0點光強的所有光源,從而算出P0點上精確的光線強度,在材質(zhì)編輯中經(jīng)常用來表現(xiàn)鏡面效果。光線跟蹤或稱光跡追蹤是計算機圖形學(xué)的核心算法之一。在算法中,光線從光源被拋射出來,當(dāng)他們經(jīng)過物體表面的時候,對他們應(yīng)用種種符合物理光學(xué)定律的變換。最終,光線進入虛擬的攝像機底片中,圖片被生成出來。光線追蹤原理圖光線追蹤對比圖資料:CSDN,華金證券研究所資料:新浪,華金證券研究所1.由專用走向通用,GPU賽道壁壘高筑1.13

光線追蹤算法要求的計算量巨大?

光線追蹤與光柵化的實現(xiàn)原理不同。光柵化渲染管線是傳統(tǒng)的渲染管線流程,是以一個三角形為單元,將三角形變成像素的過程;光線追蹤渲染管線則是以一根光線為單元,描述光線與物體的求交和求交后計算的過程。和光柵化線性管線不同的是,光線追蹤的管線是可以通過遞歸調(diào)用來衍生出另一根光線,并且執(zhí)行另一個管線實例。光線追蹤最大難點在于對算力要求極高,計算量非常龐大。?

2018年NVIDIA發(fā)布的RTX2080GPU,采用Turing架構(gòu),在GPU中集成了68個獨立的RT(raytracing)Core

(專門為光線追蹤服務(wù)的,實質(zhì)上它是一條特異化的專用流水線),用于光線追蹤,光線處理能力達到了10Giga/S,1080P@60Hz需要處理的光線約為6Giga/S,光線追蹤對于反射和陰影有著更逼真的處理效果,盡管目前仍然是采用光線追蹤和傳統(tǒng)光柵圖形處理相結(jié)合的方式來進行圖形渲染,但其效果已經(jīng)遠超傳統(tǒng)光柵圖形處理。資料:英偉達,華金證券研究所1.由專用走向通用,GPU賽道壁壘高筑1.14

走向新場景的GPGPU?

對GPU通用計算進行深入研究從2003年開始,并提出了GPGPU概念,前一個GP則表示通用目的(General

Purpose),所以GPGPU一般也被稱為通用圖形處理器或通用GPU。伴隨著GPUShader單元計算能力的不斷增長,GPU也在向通用計算開始擴張邊界。GPU從由若干專用的固定功能單元(FixedFunctionUnit)組成的專用并行處理器,進化為了以通用計算資源為主,固定功能單元為輔的架構(gòu),這一架構(gòu)的出現(xiàn)奠定了GPGPU的發(fā)展基礎(chǔ)。?

GPGPU由于其高并發(fā)性、高吞吐量以及不斷提升的可編程能力,目前的應(yīng)用已經(jīng)擴展到科學(xué)計算、區(qū)塊鏈、大數(shù)據(jù)處理、工程計算、金融、基因等方面。AI芯片的分類計算是未來科學(xué)和工程突破的關(guān)鍵資料:搜狐網(wǎng),華金證券研究所資料:《智能時代的科學(xué)計算:低維表達與高維問題的自然融合》李若,華金證券研究所1.由專用走向通用,GPU賽道壁壘高筑1.15GPU與GPGPU的對比NVIDIAGeForceRTX40的GPC單元?

GPU的核心價值體現(xiàn)在圖形圖像渲染,GPGPU的重點在于算力,雖然都是由GPU的架構(gòu)演進而來,但所關(guān)注的重點有明顯區(qū)別。GPGPU架構(gòu)設(shè)計時,去掉了GPU為了圖形處理而設(shè)計的加速硬件單元,保留了GPU的SIMT架構(gòu)和通用計算單元,使之更適合高性能并行計算,并能使用更高級別的編程語言,在性能、易用性和通用性上更加強大。GPU與GPGPU對比資料:新浪網(wǎng),華金證券研究所資料:英偉達,華金證券研究所1.由專用走向通用,GPU賽道壁壘高筑1.16GPGPU與CPU的對比?

CPU作為計算機系統(tǒng)的運算和控制核心,是信息處理、程序運行的最終執(zhí)行單元。CPU內(nèi)部主要由運算器、控制器和寄存器組成,運算器執(zhí)行數(shù)值計算,寄存器儲存數(shù)據(jù)。CPU是程序的調(diào)用者和運行者,計算機的每一條指令都要經(jīng)過CPU的解析和執(zhí)行。GPU無法單獨工作,必須由CPU進行控制調(diào)用才能工作。CPU可單獨作用,處理復(fù)雜的邏輯運算和不同的數(shù)據(jù)類型,但當(dāng)需要大量的處理類型統(tǒng)一的數(shù)據(jù)時,則可調(diào)用GPU進行并行計算。?

CPU與GPU從設(shè)計之初就是為了實現(xiàn)不同的目標(biāo),GPU的構(gòu)成相對簡單,有數(shù)量眾多的計算單元和超長的流水線,特別適合處理大量的類型統(tǒng)一的數(shù)據(jù)。GPU為并行而設(shè)計,更重視整體數(shù)據(jù)吞吐量(Throughput);CPU為串行而設(shè)計,更看重任務(wù)間的時延(Latency)。與超標(biāo)量亂序CPU相比,通過減少用于控制邏輯的面積并增加算術(shù)邏輯單元的面積,GPU可以在高度并行的工作負載上獲得更好的單位面積性能。CPU與GPU芯片面積對比CPU與GPGPU架構(gòu)對比(ALU用于計算的晶體管)資料研究所:anandtech,華金證券資料:imagination,華金證券研究所1.由專用走向通用,GPU賽道壁壘高筑1.17

并行計算發(fā)展的核心?

現(xiàn)代計算機發(fā)展經(jīng)歷了串行計算時代、并行計算時代,并行計算機是由一組處理單元組成的,這組處理單元通過互相之間的通信與協(xié)作,以更快的速度共同完成一項大規(guī)模的計算任務(wù)。并行計算機體系結(jié)構(gòu)的發(fā)展主要體現(xiàn)在計算節(jié)點性能的提高及節(jié)點間通信技術(shù)的改進兩方面。?

弗林分類法,根據(jù)指令流和數(shù)據(jù)流的不同組織方式把計算機體系的結(jié)構(gòu)分為四類:單指令流單數(shù)據(jù)流(SISD)、單指令流多數(shù)據(jù)流(SIMD)、多指令流多單數(shù)據(jù)流(MISD)、多指令流多數(shù)據(jù)流(MIMD)。指令流指的是機器執(zhí)行的指令序列;數(shù)據(jù)流指指令流調(diào)用的數(shù)據(jù)序列,包括輸入數(shù)據(jù)和中間結(jié)果。SIMD是一種執(zhí)行模型,這意味著處理器將其用于在管道中將相似的數(shù)據(jù)集排隊并并行執(zhí)行的方法,是現(xiàn)代CPU和GPU使用的最受歡迎的EM之一。弗林分類法資料:javatpoint,華金證券研究所1.由專用走向通用,GPU賽道壁壘高筑1.18SIMT,主流GPU的系統(tǒng)架構(gòu)核心?

現(xiàn)代的GPU架構(gòu)中,每個GPU會包含很多的core,英偉達稱之為流多處理器(streamingmultiprocessors,SM)。每個核都在執(zhí)行單指令多線程的程序(single-instructionmultiple-thread,SIMT)。在單個核上執(zhí)行的線程可以通過暫存內(nèi)存(有點像阻塞操作,保存現(xiàn)場)進行通信,并使用快速barrier操作進行同步。?

SIMT與SIMD(同一條指令多個數(shù)據(jù))的共同點是同一條指令。SIMT是SIMD的線程等價物,不同之處在于,SIMD使用執(zhí)行單元或矢量單元,而SIMT將其擴展為利用線程。SIMT的好處是無需開發(fā)者費力把數(shù)據(jù)湊成合適的矢量長度,并且SIMT允許每個線程有不同的分支。SIMT的主要優(yōu)點是它減少了指令預(yù)取帶來的等待時間?,F(xiàn)代GPU簡單架構(gòu)示意圖SIMD與SIMT對比資料:CSDN,華金證券研究所資料:新浪VR,華金證券研究所1.由專用走向通用,GPU賽道壁壘高筑1.19GPGPU架構(gòu),以A100為例?

A100是NVIDIA2020年5月14日發(fā)布的采用新一代Ampere架構(gòu)的計算卡,使用了GA100核心。Ampere架構(gòu)仍然沿用了成熟的GPC-TPC-SM多級架構(gòu),GA100內(nèi)部包含8組圖形處理集群(Graphics

ProcessingCluster,GPC),每組GPC包含8組紋理處理集群(TextureProcessingCluster,TPC),每組TPC又包含8組流式多處理器(StreamingMultiprocessor,SM),另外還有內(nèi)存控制器組成。GPCSM資料:CSDN,華金證券研究所繪制1.由專用走向通用,GPU賽道壁壘高筑1.20Fermi是第一個完整的GPU計算架構(gòu)?

英偉達的Fermi是第一個完整的GPU計算架構(gòu),該架構(gòu)在保持圖形性能的前提下,將通用計算的重要性提升到前所未有的高度,大規(guī)模GPU計算從此開始。?

要做通用計算,需要更強大的線程管理能力,更強大的仲裁機制,豐富的共享cache和寄存器資源以及充足的發(fā)射端等。全新Fermi架構(gòu),是以處理器為目標(biāo)進行設(shè)計,因此Fermi架構(gòu)新增了以前GPU上從來沒有的東西,包括更多的指令雙發(fā)射、統(tǒng)一的L2全局緩存、64KB的可配置式L1或者SharedMemory、大量的原子操作單元等等。GF100費米架構(gòu)核心示意圖資料:快懂百科,華金證券研究所1.由專用走向通用,GPU賽道壁壘高筑1.21

通用算力提升是英偉達GPU架構(gòu)演進的重點之一?

2016年3月英偉達推出Pascal架構(gòu),采用16nm和14nm的工藝。該架構(gòu)建立在五大技術(shù)突破之上,啟用了全新的計算平臺,打破了從書桌端到數(shù)據(jù)中心的傳統(tǒng)思維。Pascal徹底采用全新設(shè)計,為深度學(xué)習(xí)和其他計算工作負載提供更好的性能。該架構(gòu)利用全新的混合精度指令,可為深度學(xué)習(xí)提供每秒超過20萬億次浮點運算的性能峰值。英偉達架構(gòu)兩年升級一次資料:華金證券研究所繪制1.由專用走向通用,GPU賽道壁壘高筑1.22

多方面構(gòu)建的高壁壘?

GPU的體系結(jié)構(gòu)與算法是各個公司的核心機密。微架構(gòu)人才核心競爭力制程算法專利產(chǎn)業(yè)配套生態(tài)資料:華金證券研究所繪制1.由專用走向通用,GPU賽道壁壘高筑1.23

人才與研發(fā)投入,以英偉達為例?

根據(jù)英偉達官網(wǎng)報告顯示,公司共有22,500名員工;根據(jù)公司最新財年的年報顯示,公司職員中有80%屬于技術(shù)人員,有50%的具備高等學(xué)歷。?

根據(jù)英偉達最新的公告顯示,整個2023財年,英偉達總收入269.7億美元,與前一個財年幾乎持平,研發(fā)支出高達73.39億美元,研發(fā)支出在營收中占比高達27.21%。截至2023財年,公司十年間共計研發(fā)支出高達290.23億美元。圖:近十個財年英偉達營收(億美元)、研發(fā)支出(億美元)

、研發(fā)支出在營收中占比300.00250.00200.00150.00100.0050.0035.00%30.00%25.00%20.00%15.00%10.00%5.00%269.14269.7432.35%29.05%27.21%26.57%25.91%23.53%166.7521.17%20.28%19.57%18.50%117.16109.1897.1473.3969.1052.6850.1013.3146.8213.6041.3013.3639.2428.2923.7617.9714.630.000.00%2014財年2015財年2016財年2017財年2018財年2019財年2020財年2021財年2022財年2023財年研發(fā)支出(億美元)營業(yè)收入(億美元)研發(fā)支出在營收中占比資料:wind,華金證券研究所1.由專用走向通用,GPU賽道壁壘高筑1.24

國外廠商多年間構(gòu)筑了龐大的專利池?

根據(jù)萬雪佼、徐步陸在2017年發(fā)布的《圖形處理器(GPU)專利態(tài)勢研究》的內(nèi)容顯示,全球GPU專利呈現(xiàn)以下幾大特點:?

1、從全球?qū)@_國看,GPU專利全球布局重心在美國。其中超過總數(shù)80%的5459個專利家族有美國專利,剩余世界五大專利局的中日歐韓分布也排名靠前,均有超過10%專利家族有該國專利布局。從各國公開趨勢來看,在美國、中國、韓國專利布局比重呈逐年上升趨勢;?

2、從專利權(quán)人分布看,全球GPU技術(shù)領(lǐng)域?qū)@麛?shù)量排名前20的公司占有全球70%的GPU專利,GPU專利技術(shù)相對集中。排名靠前的公司以美國居多,其次是英國(ARM和ImaginationTech)。日本游戲公司索尼電腦娛樂公司和任天堂公司也有少量GPU專利。除臺灣VIA公司外,排名前100的沒有中國專利權(quán)人。GPU技術(shù)領(lǐng)域全球?qū)@易宄钟袛?shù)量排名前三的分別是NVIDIA、Intel和AMD。其中NVIDIA持有專利數(shù)量占全球總量的近20%。?

3、我國原生GPU企業(yè),歷史短,專利數(shù)量極少且布局僅在國內(nèi)。1.由專用走向通用,GPU賽道壁壘高筑1.25

英偉達全棧布局構(gòu)筑強大生態(tài)?

2006年,NVIDIA推出CUDA,這是一種用于通用GPU計算的革命性架構(gòu)。CUDA的存在使得開發(fā)者使用GPU進行通用計算的難度大幅降低,使得開發(fā)者可以相對簡單有效地對英偉達GPU芯片進行編程,使科學(xué)家和研究人員能夠利用GPU的并行處理能力來應(yīng)對最復(fù)雜的計算挑戰(zhàn)。?

芯片是算力基礎(chǔ),但要充分發(fā)揮其性能,必須構(gòu)建完備的系統(tǒng)軟件底層庫,英偉達構(gòu)建了從底層系統(tǒng)軟件、驅(qū)動軟件、平臺到上層的應(yīng)用框架。此外,英偉達提供全面的算法庫,幾乎全部開源。圖:英偉達提供全堆棧的AI、HPC軟件資料:搜狐,華金證券研究所1.由專用走向通用,GPU賽道壁壘高筑1.26

走向異構(gòu),海外廠商橫向布局不斷?

異構(gòu)計算主要是指使用不同類型指令集和體系架構(gòu)的計算單元組成系統(tǒng)的計算方式。異構(gòu)計算近年來得到更多關(guān)注,主要是因為通過提升CPU時鐘頻率和內(nèi)核數(shù)量而提高計算能力的傳統(tǒng)方式遇到了散熱和能耗瓶頸。而與此同時,GPU等專用計算單元雖然工作頻率較低,具有更多的內(nèi)核數(shù)和并行計算能力,總體性能-芯片面積比和性能-功耗比都很高,卻遠遠沒有得到充分利用。云和邊緣計算的數(shù)據(jù)中心、自動駕駛等超級終端領(lǐng)域都是典型的復(fù)雜計算場景,這類型場景的計算平臺都采用了大算力芯片,也是異構(gòu)計算最重要的落地場景。2015年12月29日,英特爾公司宣布完成對Altera公司的收購,Altera公司是FPGA(可編程邏輯陣列)技術(shù)的領(lǐng)先提供商。2022年2月14日,AMD宣布以全股份交易(all-stocktransaction)方式完成對賽靈思(Xilinx)的收購。英偉達自研CPU,在2022GTC大會上,NVIDIA宣布推出首款面向AI基礎(chǔ)設(shè)施和高性能計算的基于ArmNeoverse架構(gòu)的數(shù)據(jù)中心專屬CPU——GraceCPU超級芯片。面向未來,海外大廠橫向布局不斷。大算力芯片走向異構(gòu)超異構(gòu)的三大要素資料:極術(shù)社區(qū),華金證券研究所繪制資料:《AI計算邁入超異構(gòu)時代》宋繼強,華金證券研究所繪制目錄02由專用走向通用,GPU賽道壁壘高筑產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競賽再加速?????????2.1AI技術(shù)賦能實體經(jīng)濟面臨的瓶頸2.2ChatGPT的破圈?????????2.10生成式AI、邊緣AI技術(shù)即將步入成熟期2.11大模型是大算力和強算法結(jié)合的產(chǎn)物2.12AI芯片三劍客?2.19自動駕駛具備廣闊市場前景2.3ChatGPT的成功離不開預(yù)訓(xùn)練大模型2.4預(yù)訓(xùn)練模型的發(fā)展歷程2.13訓(xùn)練端GPU擔(dān)綱2.5Transformer架構(gòu)成主流2.14數(shù)據(jù)中心邁入“高算力”時代,兵家必爭2.15英偉達數(shù)據(jù)中心業(yè)務(wù)快速增長2.16自動駕駛研發(fā)兩大商業(yè)路線2.17自動駕駛實現(xiàn)的兩種技術(shù)路線2.18單車智能化推動算力升級加速2.6自監(jiān)督學(xué)習(xí)與Transformer的結(jié)合2.7大模型的突現(xiàn)能力2.8參數(shù)量爆發(fā)式增長的ChatGPT2.9預(yù)訓(xùn)練大模型,第三波AI發(fā)展的重大拐點全維智能化大時代,國產(chǎn)算力行則必至建議關(guān)注產(chǎn)業(yè)相關(guān)風(fēng)險提示2.產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競賽再加速2.1AI技術(shù)賦能實體經(jīng)濟面臨的瓶頸?

過去,絕大部分人工智能企業(yè)和研究機構(gòu)遵循算法、算力和數(shù)據(jù)三位一體的研究范式,即以一定的算力和數(shù)據(jù)為基礎(chǔ),使用開源算法框架訓(xùn)練智能模型。而這也導(dǎo)致了當(dāng)前大部分人工智能處于“手工作坊式”階段,面對各類行業(yè)的下游應(yīng)用,AI逐漸展現(xiàn)出碎片化、多樣化的特點,也出現(xiàn)了模型通用性不高的缺陷。這不僅是AI技術(shù)面臨的挑戰(zhàn),也限制了AI的產(chǎn)業(yè)化進程。隨著人工智能賦能實體經(jīng)濟進入深水區(qū),企業(yè)通常面臨數(shù)據(jù)資源有限、算力投資難度大、模型泛化能力差、高水平人才稀缺的發(fā)展瓶頸。人工智能發(fā)展的瓶頸問題資料:《人工智能:天使還是魔鬼》譚鐵牛,華金證券研究所2.

產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競賽再加速2.2

ChatGPT的破圈?

聊天生成型預(yù)訓(xùn)練變換模型(ChatGenerativePre-trainedTransformer)簡稱ChatGPT,是OpenAI開發(fā)的人工智慧聊天機器人程序,于2022年11月推出,上線兩個月后已有上億用戶。?

ChatGPT目前仍以文字方式互動,而除了可以用人類自然對話方式來互動,還可以用于甚為復(fù)雜的語言工作,包括自動生成文本、自動問答、自動摘要等多種任務(wù)。ChatGPT突破1億用戶數(shù)所需時間對比ChatGPT介紹資料:滿投財經(jīng),華金證券研究所資料:cnbeta,華金證券研究所2.

產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競賽再加速2.3

ChatGPT的成功離不開預(yù)訓(xùn)練大模型?

人工智能需要用大量的數(shù)據(jù)對其進行訓(xùn)練,理論上來講,投喂數(shù)據(jù)越多、數(shù)據(jù)質(zhì)量越高,模型效果就會越好。而預(yù)訓(xùn)練

(Pre-trained

Models,PTMs),就是預(yù)先訓(xùn)練好的模型,可以幫助人們降低模型創(chuàng)建和訓(xùn)練的成本。預(yù)訓(xùn)練大模型需要深度學(xué)習(xí)的算法,也需要大的數(shù)據(jù)、大的算力,做自監(jiān)督學(xué)習(xí)(模型直接從無標(biāo)簽數(shù)據(jù)中自行學(xué)習(xí),無需標(biāo)注數(shù)據(jù)),再面向不同的任務(wù)、在不同的應(yīng)用場景里做少量任務(wù)數(shù)據(jù)進行遷移學(xué)習(xí),進而應(yīng)用于很多場景。?

ChatGPT能夠?qū)崿F(xiàn)當(dāng)前的交互,離不開OpenAI在AI預(yù)訓(xùn)練大模型領(lǐng)域的積累。NLP模型開發(fā)領(lǐng)域的標(biāo)準(zhǔn)范式“pretrain+finetune”預(yù)訓(xùn)練的起源與發(fā)展資料tawhale,華金證券研究所資料:阿里云開發(fā)者社區(qū),華金證券研究所2.

產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競賽再加速2.4

預(yù)訓(xùn)練模型的發(fā)展歷程預(yù)訓(xùn)練模型的分類?

預(yù)訓(xùn)練的研究最早起源于遷移學(xué)習(xí)。遷移學(xué)習(xí)的核心思想,即運用已有的知識來學(xué)習(xí)新的知識,通俗來說就是將一個預(yù)訓(xùn)練的模型被重新用在另一個任務(wù)中。早期的預(yù)訓(xùn)練模型主要基于有標(biāo)簽數(shù)據(jù)。而在NLP領(lǐng)域,由于下游任務(wù)的多樣性以及數(shù)據(jù)標(biāo)注的復(fù)雜性,導(dǎo)致無法獲得一個像ImageNet這樣大規(guī)模的有標(biāo)簽數(shù)據(jù),所以NLP領(lǐng)域嘗試使用自監(jiān)督學(xué)習(xí)的方法來獲取預(yù)訓(xùn)練模型,自監(jiān)督學(xué)習(xí)的主要思想就是利用文本間的內(nèi)在聯(lián)系為監(jiān)督信號。?

2017年出現(xiàn)的Transformer結(jié)構(gòu),給NLP領(lǐng)域預(yù)訓(xùn)練模型的發(fā)展帶來了絕大的突破。Transformer的成功,也誘使CV領(lǐng)域加入了自監(jiān)督預(yù)訓(xùn)練模型的賽道。如今,自監(jiān)督預(yù)訓(xùn)練已經(jīng)成為當(dāng)前人工智能研究的重點,幾乎所有的最新的PTM都是采用類Transformer結(jié)構(gòu)與自監(jiān)督學(xué)習(xí)的方法。資料:CSDN,華金證券研究所2.

產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競賽再加速2.5Transformer架構(gòu)成主流?

2017年,谷歌團隊首先提出Transformer模型。該團隊將Transformer概括為一句話:“AttentionisAllYouNeed.”目前Transformer已經(jīng)成為自然語言處理領(lǐng)域的主流模型,基于Transformer的預(yù)訓(xùn)練語言模型更是成為主流。除了NLP

之外,Transformer

也逐漸成為很多基于序列的語音應(yīng)用的主流AI模型,在很多場景中已取代RNN/LSTM,比如自動語音識別、語音合成等等?

Transformer受歡迎的主要原因是其架構(gòu)引入了并行化,它利用了強大的TPU和并行訓(xùn)練,從而減少了訓(xùn)練時間?;赥ransformer架構(gòu)的應(yīng)用基于Transformer架構(gòu)的NLP模型規(guī)模資料:新浪,華金證券研究所資料:新浪,華金證券研究所2.

產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競賽再加速2.6

自監(jiān)督學(xué)習(xí)與Transformer的結(jié)合?

自監(jiān)督學(xué)習(xí)是從無標(biāo)注數(shù)據(jù)中提取知識的一種手段,它能夠利用數(shù)據(jù)本身的隱藏信息作為監(jiān)督,和無監(jiān)督有非常相似的設(shè)置。由于自然語言很難標(biāo)注且又存在大量未標(biāo)注的句子,所以NLP領(lǐng)域的預(yù)訓(xùn)練模型主要致力于自監(jiān)督學(xué)習(xí),進而大大促進了NLP領(lǐng)域的發(fā)展。?

預(yù)訓(xùn)練模型成功的關(guān)鍵是自監(jiān)督學(xué)習(xí)與Transformer的結(jié)合,具有代表性的工作是GPT和BERT系列模型。后續(xù)的其他預(yù)訓(xùn)練模型都是這兩個經(jīng)典模型的變體。近年來的預(yù)訓(xùn)練模型家族資料:搜狐網(wǎng),華金證券研究所2.

產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競賽再加速2.7

大模型的突現(xiàn)能力?

當(dāng)擴展大型語言模型時,偶爾會出現(xiàn)一些較小模型沒有的新能力,這種類似于「創(chuàng)造力」的屬性被稱作「突現(xiàn)」能力。GPT-3的論文表明,語言模型執(zhí)行多位數(shù)加法的能力對于從100M到13B參數(shù)的模型具有平坦的縮放曲線,近似隨機,但會在一個節(jié)點造成性能的飛升。?

初代GPT-3展示了三個重要能力:語言生成、上下文學(xué)習(xí)、世界知識。基本上三種能力都來自于大規(guī)模預(yù)訓(xùn)練:在有3000億單詞的語料上預(yù)訓(xùn)練擁有1750億參數(shù)的模型。GPT-3.5

的進化樹大模型的「突現(xiàn)」能力資料:《EmergentAbilitiesofLargeLanguageModels》JeffDean等,華金證券研究所資料:《拆解追溯GPT-3.5各項能力的起源》符堯,華金證券研究所2.

產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競賽再加速2.8

參數(shù)量爆發(fā)式增長的ChatGPT?

GPT模型的訓(xùn)練需要超大的訓(xùn)練語料,超多的模型參數(shù)以及超強的計算資源。2018年,OpenAI發(fā)布了生成式預(yù)訓(xùn)練語言模型GPT,可用于生成文章、代碼、機器翻譯、問答等各類內(nèi)容。GPT的參數(shù)量1.17億,預(yù)訓(xùn)練數(shù)據(jù)量約5GB;2019年2月份發(fā)布的GPT-2的參數(shù)量15億,預(yù)訓(xùn)練數(shù)據(jù)量40GB;2020年5月發(fā)布的GPU-3的參數(shù)量高達1,750億,預(yù)訓(xùn)練數(shù)據(jù)量高達45TB。圖:ChatGPT與GPT

1-3的技術(shù)對比資料:ofweek,華金證券研究所2.

產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競賽再加速2.9

預(yù)訓(xùn)練大模型,第三波AI發(fā)展的重大拐點?

深度學(xué)習(xí)時代,為了充分訓(xùn)練深層模型參數(shù)并防止過擬合,通常需要更多標(biāo)注數(shù)據(jù)喂養(yǎng)。在NLP領(lǐng)域,標(biāo)注數(shù)據(jù)更是一個昂貴資源。預(yù)訓(xùn)練從大量無標(biāo)注數(shù)據(jù)中進行預(yù)訓(xùn)練使許多NLP任務(wù)獲得顯著的性能提升。?

大模型通常是在大規(guī)模無標(biāo)注數(shù)據(jù)上進行訓(xùn)練,學(xué)習(xí)出一種特征和規(guī)則?;贏I大模型進行應(yīng)用開發(fā)時,將大模型進行微調(diào)(在下游特定任務(wù)上的小規(guī)模有標(biāo)注數(shù)據(jù)進行二次訓(xùn)練)或者不進行微調(diào),就可以完成多個應(yīng)用場景的任務(wù),實現(xiàn)通用的智能能力。預(yù)訓(xùn)練大模型在海量數(shù)據(jù)的學(xué)習(xí)訓(xùn)練后具有良好的通用性和泛化性,用戶基于大模型通過零樣本、小樣本學(xué)習(xí)即可獲得領(lǐng)先的效果,同時“預(yù)訓(xùn)練+精調(diào)”等開發(fā)范式,讓研發(fā)過程更加標(biāo)準(zhǔn)化,顯著降低了人工智能應(yīng)用門檻,成為AI走向工程化應(yīng)用落地的重要手段。訓(xùn)練大模型“預(yù)訓(xùn)練+精調(diào)”模式預(yù)訓(xùn)練大模型的基本原理資料:IDC,華金證券研究所資料:百度大腦,華金證券研究所2.

產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競賽再加速2.10

生成式AI、邊緣AI技術(shù)即將步入成熟期?

根據(jù)Gartner發(fā)布的2022年Gartner人工智能(AI)技術(shù)成熟度曲線(HypeCycle?)顯示,在多項人工智能技術(shù)中,生成式AI、合成數(shù)據(jù)、邊緣AI等當(dāng)下均處于期望膨脹期,預(yù)計2-5年達到高峰期。人工智能發(fā)展歷程人工智能技術(shù)成熟度曲線資料:《人工智能標(biāo)準(zhǔn)化白皮書》,華金證券研究所資料:Gartner,華金證券研究所2.

產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競賽再加速2.11

大模型是大算力和強算法結(jié)合的產(chǎn)物?

ChatGPT等AI應(yīng)用需要基于大量模型訓(xùn)練,以GPT-3模型為例,其存儲知識的能力

于1750億參數(shù),訓(xùn)練所需的算力高達3650PFLOPS-day。據(jù)Lambda實驗室測算,如果采用英偉達V100GPU和當(dāng)時最便宜的云服務(wù)進行計算,GPT-3訓(xùn)練一次需要355個GPU年(一塊GPU運行355年的運算量)、花費460萬美元。?

美國市場研究機構(gòu)TrendForce在2023年3月1日的報告中測算稱,處理1800億個參數(shù)的GPT-3.5大模型,需要的GPU芯片數(shù)量高達2萬枚。未來GPT大模型商業(yè)化所需的GPU芯片數(shù)量甚至超過3萬枚。在2022年11月,英偉達在官網(wǎng)公告中提到,微軟Azure上部署了數(shù)萬枚A100/H100高性能芯片。這是第一個采用英偉達高端GPU構(gòu)建的大規(guī)模AI算力集群。資料:騰訊云,華金證券研究所2.

產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競賽再加速2.12AI芯片三劍客?

AI芯片(GPU/FPGA/ASIC)在云端同時承擔(dān)人工智能“訓(xùn)練”和“推斷”過程,在終端主要承擔(dān)“推斷”過程,從性能與成本來看ASIC最優(yōu)。ASIC作為專用芯片,算力與功耗在通用芯片GPU具有絕對優(yōu)勢,但開發(fā)周期較長,落地較慢,需一定規(guī)模后才能體現(xiàn)成本優(yōu)勢。FPGA可以看做從GPU到ASIC重點過渡方案。相對于GPU可深入到硬件級優(yōu)化,相比ASIC在算法不斷迭代演進情況下更具靈活性,且開發(fā)時間更短。圖:AI芯片三劍客GPUFPGAASIC特性圖形處理器,圖像和圖形相關(guān)運算工作

現(xiàn)場可編程門陣列,可以重構(gòu)電路的芯

專用集成電路,應(yīng)特定用戶要求和特定的微處理器片,一種硬件可重構(gòu)的體系結(jié)構(gòu)電子系統(tǒng)需要而設(shè)計制造的集成電路性能靈活性成本較高較低較高高較低高較高低低高低低功耗較低較高同構(gòu)性優(yōu)點較低可以支撐大量數(shù)據(jù)的并行計算,適合對

可無限次編程,延時性比較低,同時擁

功耗低,適合量產(chǎn)數(shù)據(jù)密集型的應(yīng)用進行計算和處理

有流水線并行和數(shù)據(jù)并行、靈活性高缺點功耗高,管理控制能力弱,不具備可編

開發(fā)難度大、只適合定點運算、價格比

研發(fā)成本高昂,開發(fā)周期長,靈活性低程性

較昂貴資料:華金證券研究所整理2.

產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競賽再加速2.13

訓(xùn)練端GPU擔(dān)綱?

雖然AI芯片目前看有三大類,但是基于幾點原因,我們判斷GPU仍將是主流:1、Transformer架構(gòu)是最近幾年的主流,該架構(gòu)最大的特點之一就是能夠利用分布式GPU進行并行訓(xùn)練,提升模型訓(xùn)練效率;2、ASIC的算力與功耗雖然看似有優(yōu)勢,但考慮到AI算法還是處于一個不斷發(fā)展演進的過程,用專用芯片部署會面臨著未來算法更迭導(dǎo)致芯片不適配的巨大風(fēng)險;3、英偉達強大的芯片支撐、生態(tài)、算法開源支持。不同場景對于不同類型AI芯片的占比預(yù)測2018年全球AI芯片市場結(jié)構(gòu)云端訓(xùn)練芯片49%終端推理芯片30%云端推理芯片21%資料:賽迪顧問,華金證券研究所資料:賽迪顧問,華金證券研究所2.

產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競賽再加速2.14

數(shù)據(jù)中心邁入“高算力”時代,兵家必爭?

工信部發(fā)布的《新型數(shù)據(jù)中心發(fā)展三年行動計劃(2021-2023年)》明確了算力內(nèi)涵并引入測算指標(biāo)FLOPS,對數(shù)據(jù)中心發(fā)展質(zhì)量進行評價,指出到2023年底,總算力規(guī)模將超過200EFLOPS,高性能算力占比將達到10%,到2025年,總算力規(guī)模將超過300EFLOPS。?

由于GPU比CPU更適合處理企業(yè)數(shù)據(jù)中心和超大規(guī)模網(wǎng)絡(luò)中AI和機器學(xué)習(xí)所需的許多計算,數(shù)據(jù)中心對GPU的需求是一個不斷增長的機會。2020-2025年全球AI服務(wù)器行業(yè)市場規(guī)模及增速(單位:億美元)2016-2020中國算力結(jié)構(gòu)變化資料:信通院,華金證券研究所資料:華經(jīng)產(chǎn)業(yè)研究院,華金證券研究所2.

產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競賽再加速2.15

英偉達數(shù)據(jù)中心業(yè)務(wù)快速增長?

英偉達有四大產(chǎn)品線平臺,包括游戲業(yè)務(wù)、數(shù)據(jù)中心、專業(yè)顯示和汽車業(yè)務(wù)。2023財年第一季度,英偉達游戲業(yè)務(wù)收入較上年同比增長31%,環(huán)比增長6%;數(shù)據(jù)中心收入同比增長83%,環(huán)比增長15%,主要是由用于訓(xùn)練和推理的GPU銷售所驅(qū)動的;專業(yè)顯示的收入同比增長67%,環(huán)比下降3%;汽車收入同比下降10%,環(huán)比增長10%,同比下降由于汽車制造商供應(yīng)限制等因素導(dǎo)致。圖:英偉達按下游市場劃分銷售占比(百萬美元)100%2985057006315361,1625667676413587775586984877833207503391,11890%80%70%60%50%40%30%20%10%0%1,0532,11111301,21293483583019326,696293210,6132,9837,556406020162818201555132017624620185,51820197,759202012,46220215,6622022H1Gaming

Data?Center

Pro?Visualization

Automotive

OEM?&?Other資料:wind,華金證券研究所2.

產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競賽再加速2.16

自動駕駛研發(fā)兩大商業(yè)路線?

自動駕駛研發(fā)有兩大路線:以傳統(tǒng)車企為代表的漸進式路線,從L1逐步升級到L5;以科技公司為代表的跨越式路線,跳過駕駛輔助系統(tǒng),直接從高度自動駕駛L4系統(tǒng)切入,首先會在一些相對較易的商用場景率先落地。汽車制造商和互聯(lián)網(wǎng)企業(yè)的自動駕駛技術(shù)發(fā)展路徑資料:亞洲新能源汽車網(wǎng),華金證券研究所2.

產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競賽再加速2.17

自動駕駛實現(xiàn)的兩種技術(shù)路線?

從商業(yè)場景來看,實現(xiàn)的自動駕駛的路徑主要有兩條,一是單車智能,即通過攝像頭、

等傳感器以及高效準(zhǔn)確的算法,賦予車輛自動駕駛的能力;二是車路協(xié)同,即主要通過5G、高精地圖,來感知路況從而具備無人駕駛功能。?

從當(dāng)下技術(shù)角度來看,無論單車智能還是車路協(xié)同都存在不足之處,兩者結(jié)合可以提升自動駕駛安全。但是從商業(yè)角度,車路協(xié)同需要大量的、長期的基礎(chǔ)設(shè)施建設(shè),車企目前主要還是選擇單車智能的技術(shù)路線,而且這樣也能滿足對于自動駕駛技術(shù)的自主可控。車路協(xié)同系統(tǒng)架構(gòu)資料:中國新通信,華金證券研究所2.

產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競賽再加速2.18

單車智能化推動算力升級加速?

自動駕駛的完整流程包括感知、決策、控制,自動駕駛域的算法一般也被劃分感知算法、融合算法和執(zhí)行算法三種。隨著車輛自動駕駛等級的提升,對于車輛的主動性要求也大幅度提升,自動駕駛算法的難度就在于在所面對場景的多樣性和復(fù)雜性。?

由于不依賴人工智能算法實現(xiàn)基于機器的環(huán)境感知和規(guī)劃決策,L1-L2級傳統(tǒng)汽車不需要太大的車載算力,因此多采用小算力、微控制器的解決方案。從L2級開始,尤其是L3級以上的自動駕駛汽車需要裝備大算力芯片支撐感知、決策算法的高效運行。根據(jù)地平線公司的預(yù)測,自動駕駛每提高一級,算力就增加一個數(shù)量級。L2級別大概需要2個TOPS的算力,L3需要24個TOPS,L4為320TOPS,L5為4000+TOPS。自動駕駛核心技術(shù)不同等級自動駕駛對于算力的需求資料:51CTO,華金證券研究所資料:地平線,華金證券研究所2.

產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競賽再加速2.19

自動駕駛具備廣闊市場前景?

IDC最新發(fā)布的《全球自動駕駛汽車預(yù)測報告(2020-2024)》數(shù)據(jù)顯示,2024年全球L1-L5級自動駕駛汽車出貨量預(yù)計將達到約5425萬輛,2020至2024年的年均復(fù)合增長率(CAGR)達到18.3%;L1和L2級自動駕駛在2024年的市場份額預(yù)計分別為64.4%和34.0%。中國仍將是全球汽車工業(yè)的主要市場,ICV的報告預(yù)計,到2026年中國汽車銷售市場約占到全球的40.12%。全球自動駕駛汽車出貨量及增長率預(yù)測(2020-2024)全球自動駕駛汽車出貨量及增長率預(yù)測(2020-2024)資料:IDC,華金證券研究所資料:ICV,華金證券研究所目錄03由專用走向通用,GPU賽道壁壘高筑產(chǎn)業(yè)化路徑顯現(xiàn),全球AI競賽再加速全維智能化大時代,國產(chǎn)算力行則必至??????????3.1全球數(shù)據(jù)中心負載任務(wù)量快速增長3.2全球計算產(chǎn)業(yè)投資空間巨大3.3預(yù)訓(xùn)練大模型對于GPU的需求3.4國內(nèi)市場需求將保持高增長3.5云計算及云部署方式??????????3.11云計算產(chǎn)業(yè)鏈?????????3.21摩爾定律發(fā)展趨緩3.12集成顯卡與獨立顯卡市場份額3.13獨立顯卡英偉達一家獨大3.22Chiplet技術(shù)潛力大3.23Chiplet技術(shù)發(fā)展歷程3.14性能強大的H1003.24行業(yè)巨頭推動,產(chǎn)業(yè)加速落地3.25采用Chiplet技術(shù)的產(chǎn)品不斷出現(xiàn)3.26算力兩大演進方向:更大算力&更多樣化應(yīng)用3.27存量替代與增量成長并存3.28高吞吐量離不開高速傳輸3.29光通信前景可期3.15國產(chǎn)廠商兩條發(fā)展路徑:GPU和GPGPU3.16先求有,再求好3.6不同云部署方式的市場占比3.7企業(yè)上云持續(xù)向細分行業(yè)滲透3.8從“資源上云”邁入“深度用云”3.9信創(chuàng)從試點走向推廣3.17生態(tài)先兼容主流,未來將走向自建3.18國產(chǎn)之路已開啟,部分國產(chǎn)GPU設(shè)計廠商列表3.19GPU發(fā)展離不開全球產(chǎn)業(yè)鏈的支撐3.20制程升級對于算力芯片性能提升具有較高貢獻度3.10公有云主要參與廠商建議關(guān)注產(chǎn)業(yè)相關(guān)風(fēng)險提示3.全維智能化大時代,國產(chǎn)算力行則必至3.1

全球數(shù)據(jù)中心負載任務(wù)量快速增長?

大規(guī)模張量運算、矩陣運算是人工智能在計算層面的突出需求,高并行度的深度學(xué)習(xí)算法在視覺、語音和自然語言處理等領(lǐng)域上的廣泛應(yīng)用使得計算能力需求呈現(xiàn)指數(shù)級增長。根據(jù)IDC的預(yù)測,從2018年至2025年,全球的數(shù)據(jù)增長量達到5倍以上,將從2018年的32ZB增至2025年的175ZB。中國將在2025年以48.6ZB的數(shù)據(jù)量及27.8%的占比成為全球最大的數(shù)據(jù)匯集地。?

根據(jù)Cisco的預(yù)計,2021年全球數(shù)據(jù)中心負載任務(wù)量將超過2016年的兩倍,從2016年的不到250萬個負載任務(wù)量增長到2021年的近570萬個負載任務(wù)量。2010年至2025年全球數(shù)據(jù)量增長情況2016年-2021年數(shù)據(jù)中心負載任務(wù)量變化資料:IDC,華金證券研究所資料::CiscoGlobalCloudIndex,華金證券研究所3.全維智能化大時代,國產(chǎn)算力行則必至3.2

全球計算產(chǎn)業(yè)投資空間巨大?

根據(jù)《鯤鵬計算產(chǎn)業(yè)發(fā)展白皮書》內(nèi)容顯示,數(shù)字化浪潮正重塑世界經(jīng)濟格局,數(shù)字經(jīng)濟正在成為全球可持續(xù)增長的引擎。IDC預(yù)測,到2023年數(shù)字經(jīng)濟產(chǎn)值將占到全球GDP的62%,全球進入數(shù)字經(jīng)濟時代。新的計算產(chǎn)業(yè)鏈將推動全球計算產(chǎn)業(yè)快速發(fā)展,帶動全球數(shù)字經(jīng)濟走向繁榮。?

IDC預(yù)測,到2023年,全球計算產(chǎn)業(yè)投資空間1.14萬億美元。中國計算產(chǎn)業(yè)投資空間1043億美元,接近全球的10%,是全球計算產(chǎn)業(yè)發(fā)展的主要推動力和增長引擎。鯤鵬計算產(chǎn)業(yè)定義2023年全球計算產(chǎn)業(yè)投資額(美元)資料:鯤鵬計算產(chǎn)業(yè)發(fā)展白皮書,華金證券研究所資料:鯤鵬計算產(chǎn)業(yè)發(fā)展白皮書,華金證券研究所3.全維智能化大時代,國產(chǎn)算力行則必至3.3

預(yù)訓(xùn)練大模型對于GPU的需求?

根據(jù)TrendForce的估計,2020年,GPT模型處理訓(xùn)練數(shù)據(jù)所需的GPU數(shù)量達到了20000左右。展望未來,GPT模型(或ChatGPT)商業(yè)化所需的GPU數(shù)量預(yù)計將達到30000個以上。這些均使用英偉達的A100GPU作為計算基礎(chǔ)。?

根據(jù)中關(guān)村在線的新聞顯示,目前英偉達A100顯卡的售價在1.00~1.50萬美元之間。英偉達還將A100作為DGXA100系統(tǒng)的一部分進行銷售,該系統(tǒng)具有八塊A100,兩塊AMDRome7742CPU,售價高達199,000美元。英偉達數(shù)據(jù)中心GPU對比DGXA100組件資料:cnbeta,華金證券研究所資料:foresine,華金證券研究所3.全維智能化大時代,國產(chǎn)算力行則必至3.4

國內(nèi)市場需求將保持高增長?

人工智能領(lǐng)域的應(yīng)用目前處于技術(shù)和需求融合的高速發(fā)展階段,在運算加速方面逐漸形成了以GPGPU解決方案為主的局面。根據(jù)前瞻產(chǎn)業(yè)研究院的數(shù)據(jù),未來幾年內(nèi),中國人工智能芯片市場規(guī)模將保持年均40%至50%的增長速度,到2024年,市場規(guī)模將達到785億元。?

聚集強大人工智能算力的智算中心是中國數(shù)字經(jīng)濟高速發(fā)展的產(chǎn)物,是一種新型的公共基礎(chǔ)設(shè)施。國家已經(jīng)出臺了相關(guān)政策,并把智算中心列為“新基建”。東數(shù)西算樞紐節(jié)點區(qū)域特點及布局思路中國人工智能芯片市場規(guī)模(億元)資料:海光信息招股書,華金證券研究所資料:前瞻產(chǎn)業(yè)研究院,華金證券研究所3.全維智能化大時代,國產(chǎn)算力行則必至3.5

云計算及云部署方式?

云計算廣義的來說是廠商通過

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論