




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、AI芯片產業發展分析報告AI 芯片,誰與爭鋒?人工智能革命將引起芯片業格局重新調整我們在 HYPERLINK /report/pdf/430203-1 尋找 AI+淘金熱中的賣水人報告中已經指出,人工智能革命將引起芯片業格局重新調整。近期,谷歌推出第二代 TPU, 英偉達推出 V100,AMD 推出 Vega Frontier Edition,我們對 AI 芯片市場進行再次審視。就市場規模而言,目前數據中心服務器中只有 7%用于人工智能(其中 3%使用 GPGPU,95%使用 CPU),但英特爾估計,到 2020年,人工智能計算量將增加 12 倍,運行人工智能工作負載的服務器將超過其他所有服務
2、器。英偉達估計數據中心人工智能相關芯片的市場空間到 2020 年有 260 億美元,包含訓練 110 億和推理150 億,AMD 估計 50 億美元,只含訓練。短期內,GPU 仍將主導訓練,FPGA 爭奪推理市場GPU 強大的并行計算能力在深度學習訓練環節的優勢已是市場共識。英偉達經過多年努力形成的生態系統(Cuda 已到第 9 代,開發者 51.1 萬,支持 TensorFlow/Caffe2/MXNet 等多個主流框架, 扶持創業企業 1300 家,開源 Xavier DLA)已形成了較好的先發優勢。谷歌 TPU 暫時還難以撼動英偉達 GPU 的市場地位(專門適用于 TensorFlow,
3、單片 TPU 45 teraflops,低于單片英偉達 V100 的120 teraflops)。而在推理環節,目前主要由 CPU 兼任,但需要低延遲的實時推理,或者需要低功耗的場景,將逐漸由 FPGA 替代(平均每瓦特的性能在圖片 CNN 算法推理、語音 LSTM 算法推理上, 比 CPU 分別提高 30/81 倍)。英特爾和賽靈思的 FPGA 已分別被微軟 Azure 和 AWS 采用。長期來看,訓練和推理、云和終端都將更多采用 ASIC然而,CPU、GPU 和 FPGA 都屬于通用芯片,并非專門為人工智能開發。我們相信,隨著市場需求的擴大,各類專用芯片將最終占據主流地位,不論是在訓練還是
4、推理環節,不論是云數據中心還是移動終端。除了谷歌這樣的云服務商外,英特爾(Lake Crest)、英偉達(Xavier)、高通等芯片商,以及 Groq(原 TPU 開發者離職創立)、Wave Computing、Graphcore 等創業公司(參見圖表13-16)都在積極研發 AI 專用芯片。當前面臨的主要困難(特別是對創業公司)是芯片研發的高成本和市場培育。股票標的:英偉達、博通、賽靈思當前我們依然看好 HYPERLINK /report/pdf/443399-1 英偉達,來自 TPU 和 AMD 的競爭,不影響我們對英偉達數據中心收入未來 3 年年均增長 90%的假設。博通是谷歌 TPU
5、的 ODM 伙伴,不僅合作設計,也通過分包商幫忙谷歌完成芯片的制造、測試和封裝。此外,公司還與另外至少 2 家客戶定制人工智能方面的芯片。就公司整體而言,我們還看好其在高端射頻方面的增長前景,以及利潤率和紅利現金回報的提高(參見報告 HYPERLINK /report/pdf/434554-1 5G 黎明)。就 HYPERLINK /report/pdf/444184-1 賽靈思而言,雖然管理層謹慎有加,未能就數據中心業務給出更高的收入指引,使股價催化劑延遲,但因其估值與其他高質量半導體公司相當,公司市場份額持續提高, 股價下行風險也相對有限。圖表 1: 人工智能革命將引起芯片行業格局重新調整
6、資料來源:英特爾公司披露,谷歌 I/O 大會 2017圖表 2: 數據中心 AI 芯片市場空間到 2020 年可達 260 億美元資料來源:英偉達投資者日、AMD 投資者日圖表 3: CPU、GPU、FPGA 和 ASIC 將各司其職,異構計算重要性提高 Cloud TPU Cloud TPU 資料來源:微軟 Build 大會,谷歌 I/O 大會圖表 4: 訓練環節目前已大量使用 GPU用 Caffe2 來訓練 CNN,8 個 V100 只需不到 10 小時(8 個 P100 需要 20 小時);用 Microsoft Cognitive Toolkit 來訓練 NCCL 2.0,8個 V10
7、0 只需 7 小時,64 個 V100 只需幾小時(8 個 P100 需要 20 小時);用 MXNET 訓練 LTSM,V100 也只需幾個小時資料來源:英偉達 GTC 大會圖表 5: 推理環節目前以 CPU 為主,但將過渡到 FPGA,特別是需要低延遲的實時推理微軟 Azure 最早采用 FPGAs 加速云數據中心運行某個 API,1 個 CPU 延遲 442ms,9 個 CPU 延遲 56ms,9 個 FPGAs 延遲 15ms資料來源:微軟 Build 大會圖表 6: 或者需要低功耗的場景FPGAs 平均每瓦特的性能在 SQL 查詢、視頻轉碼、圖片 CNN(卷積神經網絡)算法推理、語音
8、 LSTM(長短期記憶網絡)算法推理上,比 CPU 分別提高 33/18/30/81 倍。而相比 GPU,還能進行存儲和聯網。資料來源:賽靈思投資者日圖表 7: 但長遠來看,訓練和推理都可由類似谷歌 TPU 的 ASIC 取代第二代 TPU 可進行訓練和推理,4 片 TPU 單機可進行 180 teraflops 浮點運算(單個英偉達 V100 可對 TensorFlow 進行 120 teraflops浮點運算)。64 個 TPU 組成的 TPU Pod 可進行 11.5 petaflops 浮點運算資料來源:谷歌 I/O 大會 2017圖表 8: 英偉達 V100 是目前最先進的數據中心
9、GPU,相比 Pascal,訓練速度提高 12 倍,推理速度提高 6 倍Tesla ProductTesla K40Tesla M40Tesla P100Tesla V100GPUGK110 (Kepler)GM 200 (Maxwell)GP100 (Pascal)GV100 (Volta)SMs15245680TPCs15242840FP32 Cores / SM1921286464FP32 Cores / GPU2880307235845120FP64 Cores / SM6443232FP64 Cores / GPU9609617922560Tensor Cores / SMNANAN
10、A8Tensor Cores / GPUNANANA640GPU Boost Clock810/875 MHz1114 MHz1480 MHz1455 MHzPeak FP32 TFLOP/s*5.046.810.615Peak FP64 TFLOP/s*1.682.15.37.5Peak Tensor Core TFLOP/s*NANANA120Texture Units240192224320Memory Interface384-bit GDDR5384-bit GDDR54096-bit HBM 24096-bit HBM 2Memory SizeUp to 12 GBUp to 24
11、 GB16 GB16 GBL2 Cache Size1536 KB3072 KB4096 KB6144 KBShared Memory Size / SM16KB/32 KB/48 KB96 KB64 KBConfigurable up to 96 KBRegister File Size / SM256 KB256 KB256 KB256KBRegister File Size / GPU3840 KB6144 KB14336 KB20480 KBTDP235 Watts250 Watts300 Watts300 WattsTransistors7.1 billion8 billion15.
12、3 billion21.1 billionGPU Die Size551 mm601 mm610 mm815 mmManufacturing Process28 nm28 nm16 nm FinFET+12 nm FFN資料來源:英偉達公司博客圖表 9: 公司還想借 V100 進入推理環節V100 在推理環節的通量達 5000 張圖片每秒,延遲 7ms,速度比英特爾 Skylake(300 張圖片每秒/延遲 10ms)提高 15-25 倍。而為得到同樣通量, 成本可節約 90%(實現每秒 5 萬次推理,需要 230 萬美元、12 racks 的 CPU,卻只需 24 萬美元、1 rack 的
13、GPU)資料來源:英偉達 GTC 大會,英偉達投資者日圖表 10: 英特爾即將推出可并行計算的 CPU(Knights Mill)、FPGA 與 CPU 整合(Skylake + Arria 10)和 ASIC(Lake Crest)資料來源:英特爾公司披露圖表 11: AMD 計劃 6 月推出 Radeon Vega Frontier Edition,嘗試進入深度學習訓練領域,并希望實現 CPU(Naples/EPYC)與 GPU 的交叉銷售資料來源:AMD 投資者日圖表 12: 賽靈思部署于 AWS 的 F1 實例,今年 4 月開始公眾開放,目前累計被調用 2000 次資料來源:賽靈思投資
14、者日圖表 13: 正在研發 ASIC 的創業公司包括 Wave ComputingWave Computing 于 2010 年 12 月成立于加州,今年 4 月剛獲得 D 輪融資。公司正在研制專門用于深度學習訓練和推理的芯片 DPU(Dataflow Processing Unit),達到高度并行計算,高存儲帶寬和低計算精度。單片峰值處理能力達 2.9 PetaOPS/秒,且無需 CPU 來管理工作流。公司計劃未來幾個月內向其早期客戶發貨。資料來源:Wave Computing 公司網站,Crunchbase圖表 14: GraphcoreGraphcore 成立于 2016 年,總部位于英
15、國,其團隊成員來自 Altera(被英特爾收購)和 Icera(被英偉達收購)。公司的產品主要是 IPU(Intelligent Processing Unit)處理器,該處理器經過優化,可以高效的處理機器學習領域中極其復雜的高維模型。IPU 強調大規模并行運算和低精度浮點運算, 與其他解決方案相比,IPU 擁有更高的計算密度以及超過 100 倍的內存帶寬,可以完全在內部處理機器學習模型,擁有更低的能耗與性能。IPU 產品包括 IPU 設備與 IPU 加速器,前者旨在為云和企業數據中心服務,幫助加速 AI 應用并降低成本,并將訓練和推理環節提速 10 x 和 100 x;后者是一個 PCle
16、卡,能夠插入服務器中以加速機器學習應用。公司還為主流機器學習框架例如 TensorFlow 和 MXNet 提供無縫界面。為了支持該界面, Graphcore 推出了靈活的開源圖形編程軟件框架 Poplar,其中包含工具、驅動及應用庫,使用 C+或 Python 界面,允許開發人員修改和擴展庫, 從而更快更方便的使用 IPU 系統。公司表示,其產品可以讓客戶在同一芯片上進行訓練和推理,例如白天進行推理(算法執行),夜間利用當日獲得的新數據對算法進行再訓練。公司計劃今年之內向早期客戶發貨。截至目前僅在成立時進行了一筆 A 輪融資,融資額 3200 萬美元,Robert Bosch Venture
17、 Capital 和 Samsung Strategy and Innovation Center 領投。資料來源:Graphcore 公司網站,Crunchbase圖表 15: Cerebras SystemsCerebras Systems 成立于 2016 年,總部位于加州 Los Altos,目前正在研制下一代用于深度學習訓練的芯片。Cerebras 的官網上將自己描述為一家低調的初創企業,敢于解決別人無法解決的問題。該公司的 CEO Andrew Feldman 和 CTO Gary Lauterbach 此前都是SeaMicro 的聯合創始人,在 SeaMicro 被收購后加入了
18、AMD。去年 12 月,Cerebras 獲得了來自 Benchmark 的 2500 萬美元的融資。資料來源:Graphcore 公司網站,Crunchbase圖表 16: Groq、Mythic 、Tenstorrent 等GroqMythicTenstorrent資料來源: Crunchbase圖表 17: 可比估值表NamePrice YTDMarket Cap ($mn)PE0PE1PEG1P/B0P/S0EV/S0P/CF0Free Cash Flow Field TrailingEV/EBIT DA0EV/EBIT DA1EPSGrow th (past 3yrs)Revenue Grow th (past 3yrs)ROAROENVIDIA CORP28.5881,66138.6033.243.4813.3010.099.4346.121.9428.9524.2760.1419.4323.70 37.90ADV MICRO DEVICE-3.8510,304178.7540.098.0225.112.122.23N/A-2.5029.2419.78N/A-5.52-14.68 N/AXILINX INC8.4516,24025.9023.372.736.477.015.7617.635.2418.1616.521.39-0.3313.02 2
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 黑龍江省哈爾濱市實驗學校2025年八年級數學第二學期期末復習檢測模擬試題含解析
- 信息處理技術員考試小技巧與試題及答案
- 軟件設計師考試趨勢分析與試題及答案
- 2025屆北京市延慶區數學七下期末質量跟蹤監視試題含解析
- 軟件測試策略與方法總結試題及答案
- 移動應用用戶體驗設計考題試題及答案
- 機械設備行業保安工作計劃
- 算法與數據結構2025年考試試題及答案
- 如何開展財務審計工作計劃
- 信息科技行業安全防護總結計劃
- 2025年財務會計師入職考試試題及答案
- 安徽省1號卷A10聯盟2025屆高三5月最后一卷地理試題及答案
- 倉庫定置目視化管理
- 2025年5月12日陜西省公務員面試真題及答案解析
- 2025-2030中國海上風電行業市場深度調研及投資策略與投資前景研究報告
- 工程經濟課件
- 變電站值班員-中級工考試模擬題及參考答案解析
- 2024年西雙版納州景洪市事業單位選調工作人員筆試真題
- 浙江省紹興市柯橋區2025年5月統考英語試題試卷含解析
- 【語文】第23課《“蛟龍”探海》課件 2024-2025學年統編版語文七年級下冊
- 大部分分校:地域文化形考任務一-國開(CQ)-國開期末復習資料
評論
0/150
提交評論