




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
AI芯片基礎知識類口邏輯芯片 例如:),進而組成更為復雜的電路,實現不同類別的邏輯運算。CPU和口 就是 - - - ·1940年代誕生的馮·在這個架構中,包括了運算器(也叫邏輯運算單元,ALU)(CU)、存儲器、輸入設備、輸出設備等組成部分。運算器和控制器這兩個核心功能,都由CPU負責承擔。 ·處理流程:數據先存在存儲器。然后,控制器會從存儲器拿到相應數據,再交給運算器進行運算。運算
(
(
(
(口 運算器(也叫算術邏輯單元Arithmetic Unit,ALU):包括加法器、減法器、乘法器、除法器等,控制器(控制單元Control 負責協調整個CPU的操作,包括取指、解碼、執行和寫回四個階寄存器(高速緩存): 是CPU中的高速存儲器,存儲最近使用過的數據或即將使用的指令。通常分為L1、L2和L3三級緩存。它的CPU與內存(RAM) 之間的“緩沖”,速度比一般的內存更快,避免內 累”CPU 時鐘模塊:CPUCPUCPU中的所有操作,調度各個模塊的工作。CPU和口多核CPUACoreCPUBCoreL1L2L1L2L1L2L1L2L3L3主內存CPU多核硬件架構示口CPU的類別(1978Intel1985((1980(1985((1991(1992((2010(RISC-VGreenWavesImagination、平頭哥、晶心科CPU和 下游 授CPU和口 的定 - 口 高度并行架構專為浮點運算優化由于圖形渲染涉及大量的矩陣乘法和向量運算,因此GPU在浮點運算方面進行了特別優化,提供了比CPU更高的吞吐內存帶寬高GPU通常配備有高速的專用顯存 低延遲響應 支持多種編程接口GPUOpenGLDirectXAPI,還廣泛支持CUDAOpenCLVulkanAPI口顯卡的組成-外圍設備接口CPU和-1962年,麻省理工學院博士伊凡·蘇澤蘭 Sutherland)奠定了計算機圖形學基礎19943DLabsGLINT300SX,是PC3D3D19953DfxVoodoo3D1999年8月, (英偉達)公司發布圖形芯片 首次提出GPU的概念1999NVIDIA3Dfx2006AMD54ATI口 (顯卡)的分獨立GPU(dGPU,discrete/dedicated GPU),常說的獨立顯卡(獨顯)。集成 GPU),常說的集成顯卡(集顯)GPUCPUCPUand
集成口 (顯卡)的主要參制程: 的制造工藝和設計規則,代表不同電路特性,通常以生產精度nm表圖形處理器單元數量:包含了光柵單元 紋理單元TMU的數量,數量越多可執行指令多- - 核數:指張量處理單元的數量, Core核數越多,性能越顯存容量:顯存容量越大, 能夠處理的數據量越顯存帶寬:等于顯存頻率X/8,與顯存頻率、位寬成正比顯存頻率:反映顯存速度,以 為衡量單位,越高端的顯存,頻率越時間STG-時間STG-RivaGeForce4TiGeForce8800GeForceGTXGeForceGTXGeForceGTXGeForceGTXGeForceRTXGeForceRTXGeForceRTX40系列GeForceRTX50系列- GPU基于GPU - 在傳統GPU國內主要公司圖形渲染、圖形計算景嘉微、摩爾線程、象帝先、芯動科技、格蘭菲、勵算、深流微、芯瞳、繪智微Al壁仞、沫曦、登臨、天數智芯、紅山微電子、瀚博CPU和 架特斯拉6.84費米30開普勒71K80麥克斯韋80M5000帕斯卡153P100GTX1080伏特211V100TiTan圖靈186T42080TIRTX安培283A100A30赫柏800布萊克威爾2080B200 2007Tesla架構:是第一代真正用于并行運算的GPU架構,標志用于計算的GPU產品線正式2010Fermi架構:首個完整GPU架構,是第一個可支持與共享存儲結合純cacheGPU2014年, 2016年,Pascal架構:采用了 的 技術。首次引入了3D內存及NVLink高速2017VoltaTensor(張量2018TuringRTX2020Ampere5402022年, 和Al工作負載25倍2024年,Blackwell架構:專門用于處理數據中心規模的生成式 工作流,能效是25倍GPU-220290370MXNGPUMXCGPUMXG系列GPU()212和-CPU 的內核(包括了ALU) 數量比較少,最多只有幾十個。但是,CPU 有大量的緩存(Cache) 復雜的控制器(CU)。 - 的強項是管理和調度。真正干活的功能,反而不強 占比大約5%~20%)- 的內核數,遠遠超過CPU,可以達到幾千個甚至上萬個(也因此被稱為“眾核”)- 的任務,是在最短的時間里,完成大量同質化數據的并行運算。所謂調度和協調的“雜活”,反而很- ALU80-雖然GPU單核的處理能力弱于 CPUGPUAl- 深度學習是目前最主流的人工智能算法,包括訓練(training)和推理 兩個環節在訓練環節,通過投喂大量的數據,訓練出一個復雜的神經網絡模型。在推理環節,利用訓練好的模型,使用大量數據推理出各種結論。它們所采用的具體算法,包括矩陣相乘、卷積、循環層、梯度運算等,分解為大量并行任務,可以有效縮短任務完成的時間。-GPU 憑借自身強悍的并行計算能力以及內存帶寬,可以很好地應對訓練和推理任務,已經成為業界在深度學習領域的首選解決方案。目前,大部分企業的Al訓練,采用的是英偉達的GPU 集群。如果進行合理優化,一塊GPU 卡,可以提供相當于數十其至上百臺CPU服務器的算力。CPU和AI項目項目FP16312756.5366.51979INT8624151373339589.73425.73419.56767GPU80GB8048GBGDDR6有141GBGPU內存帶寬2.0393.350.8644.8400700700 - Architecture) 通過提供一系列的工具、庫和API,使開發人員可以編寫能夠在NVIDIA - 和 深度神經網絡庫)已經成為訓練復雜神經網絡不可或缺的一部分口ASIC-ASIC(ApplicationSpecificIntegratedCircuit- ASICASIC高成本效益:盡管ASICASIC口ASICASIC芯片,首先要經過代碼設計、綜合、后端等復雜的設計流程,再經過幾個月的生產加工以ASIC需要“(Tape-out)”14nm3005nm4725萬美元。流片一旦失敗,將損耗大量的經費,耽誤大量的時間和精力。ASIC的應用領域加密貨幣挖礦:比特幣等加密貨幣的挖礦機常采用ASIC汽車電子:用于高級駕駛輔助系統(ADAS)、動力總成控制單元等。AlASIC,如GoogleTPU() 所謂“張量 是一個包含多個數字(多維數組)的數學實體目前,幾乎所有的機器學習系統,都使用張量作為基本數據結構。所以,張量處理單元,我們可以簡單理解為Al處理單元”。-2015年,為了更好地完成自己的深度學習任務,提升Al算力,Google 練的芯片,也就是TPUv1。相比傳統的CPU和GPU, 在神經網絡計算方面,TPUv1可以獲得15~30倍的性能提升,能效提升更是達到30~80倍,給行業帶來了很大震動。-2017年和2018年,Google又推出了能力更強的TPUv2和 v3,用于Al訓練和推理-2021年,Google推出了 v4,采用7nm工藝,晶體管數達到220億,性能相較上代提升了倍,比英偉達的A1001.7Google之外,還有很多頭部企業這幾年也在研發ASIC英特爾公司在2019年底收購了以色列Al芯片公司Habana Labs,2022年,發布了Gaudi2ASIC芯片。2022年底, 研究院發布了AlASIC芯片AlU三星早幾年也推出過 當時做的是礦機專用芯片多媒體多媒體傳感器顯示/- 經常集成在手機SoCAl
手 芯- Unit部分DPU制造商和技術: 華為昇騰 系列處理器是華為自主研發的Al芯片,也屬于ASIC芯片910310訓練推理達芬奇達芬奇算力910310訓練推理達芬奇達芬奇算力口 的定 英文全稱 GateArray,現場可編程門陣列- PAL()GAL()FPGA就是可以重構的芯片。它可以根據用戶的需要,在制造后,進行無限次數的重復編程,口 三種可編程電路:可編程邏輯塊(Configurable Blocks,CLB):最重要的部分,是實現邏輯功能的基本單元,承載主要的功能。它們通常規則排列成一個陣列(邏輯單元陣列, Array),散布于整個芯片中輸入/輸出模塊 可編程互連資源(Programmable Resources,PIR):提供了豐富的連線資源,包括縱橫網狀靜態存儲器口 -CLB 本身,又主要由查找表(Look-Up Table,LUT)、多路復用器(Multiplexer)和觸發器(Flip-Flop)構成。它們用于承載電路中的一個個邏輯“門”,可以用來實現復雜的邏輯功能。-LUTRAM。當用戶描述了一個邏輯電路后,軟件會計算所有可能RAMLUT會找出地址對應的內容,返回結果。這種“硬件化”的運算方式,顯然具有更快的運算速度。 的邏輯單元功能在編程時已確定,屬于用硬件來實現軟件算法。對于保存狀態的需求,FPGA 寄存器和片上內存(BRAM) FPGA用戶使用FPGA時,可以通過硬件描述語言(Verilog或VHDL), 完成的電路設計,然后對FPGA進行“編程”(燒寫),將設計加載到FPGA上,實現對應的功能。FPGAEPROMSRAMFPGA進入工FPGA恢復成白片,內部邏輯關系消失。如此反復,就實現了“現場”定制。- FPGAASIC邏輯功能。FPGA·Xilinx公司(賽靈思):2020年, 以350億美元收購了Xilinx (阿爾特拉):2015年5月,Intel以167億美元的天價收購了Altera,后來收編為 (可編程解決方案事部門。2023年10月, 設計商終端用戶口ASIC和 的區- 和 本質上都是芯片。AISC是全定制芯片,功能寫死,沒辦法改。而FPGA是半定制芯片- 口 和 的區-ASIC50%-70% 開發周期:開發ASIC,可能需要幾個月甚至一年以上的時間。開發 只需要幾周或幾個月的時間FPGA可以在實驗室或現場進行預制和編程,不需要一次性工程費用(NRE)為“通用玩具”,它的成ASIC()10,FPGAASIC的一次性工程費,ASIC反而便宜??傮w擁有成本口ASIC和 的區性能和功耗:作為專用定制芯片,ASIC比 強- - 和 的產品。FPGA 還經常用于ASIC的驗證。 口 - FPGA-FPGA 在通信領域用得很早。很多基站的處理芯片(基帶處理、波束賦形、天線收發器等),都是用的FPGADPU等部件上,也用。后來,很多技ASIC替代,以此減少成本。口整體對比通用半通用較低較高較高通用性最強計算能力強生態成熟能效最高并行算力弱功耗較大編程難度較大云端推理云端訓練和推理終端推理口整體對比從理論和架構的角度,ASIC和 的性能和成本,肯定是優于CPU和 的 遵循的是馮·諾依曼體系結構,指令要經過存儲、譯碼、執行等步驟,共享內存在使用時,FPGAASIC并不是馮·()FPGA為例,它本質上是無指令、無需共享內存的體系結構。馮諾依曼架 哈佛架從ALU運算單元占比來看, 比CPU高,并行計算效率更高 因為幾乎沒有控制模塊,所有模塊都是ALU運算單元,比GPU更- 的功耗極高,單片可以達到 甚至600W(RTX5090)。而FPGA一般只30~50W這主要是因為內存讀取。GPU的內存接口(GDDR5HBMHBM2)帶寬極高,大約是FPGADDR4-5DRAMSRAM100倍以上。GPUDRAM的處理,產生了極高的功耗。另外,FPGA的工作主頻(500MHz以下)比CPU、GPU (1~3GHz)低,也會使得自身功耗更低。FPGA 口時延對比- 時延高于FPGA-GPU 通常需要將不同的訓練樣本,劃分成固定大小的"Batch (批次)",
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 徐州工程學院《工程制圖C》2023-2024學年第二學期期末試卷
- 邢臺醫學高等??茖W校《中學語文經典散文解讀》2023-2024學年第二學期期末試卷
- 雙河市2025年三年級數學第二學期期末聯考試題含解析
- 江蘇理工學院《法醫學》2023-2024學年第一學期期末試卷
- 宿州航空職業學院《高等數學提高》2023-2024學年第二學期期末試卷
- 新疆職業大學《企業經營管理沙盤》2023-2024學年第二學期期末試卷
- 福州市八縣協作校2025屆高三第二次診斷考試物理試題含解析
- 牽引并發癥的預防和護理
- 360色彩基礎知識課件
- 消毒供應中心技術操作清洗
- 油漆工施工安全技術詳細措施培訓
- 我的家鄉東營廣饒旅游宣傳介紹
- 英語48個國際音標課件(單詞帶聲、附有聲國際音標圖)
- 電商運營總監工作的崗位職責與電商運營經理崗位的具體職責
- 國家開放大學國開電大《電商數據分析》終考考核
- 第十五章藥物制劑的設計
- 教科版科學四年級下冊第二單元《電路》單元作業設計
- 中醫治療“粉刺”醫案16例
- 自動化專業技術總結范文10篇
- 吊籃施工安全管理培訓課件
- 《用戶體驗設計導論》第14章-用戶體驗質量的測試與評價課件
評論
0/150
提交評論