




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
證券研究報告AI云計算新范式:規模效應+AIInfra+ASIC芯片1——GenAI系列報告之五十四
3核心觀點:AI云計算新范式:規模效應+AIInfra能力+算力自主化。云計算在AI收入拉動下營收增速回暖、Capex增長加速已成為市場共識。(詳見此前相關報告總結。)但對于AI云時代競爭格局以及云廠利潤率還有分歧,也是本報告的重點。1)更強的規模效應;2)AIinfra能力;3)算力自主化為云廠中長期降本方向。規模效應:更高的初始投入,更高的算力利用率。(1)AI云更高的資本密集度。(2)AI服務器/網絡設備使用年限更短、成本占比明顯提升。多租戶+多場景(含自有場景)+自有模型平抑需求峰谷,降低產能空置率、攤薄單位計算成本,實現更高的ROI。以騰訊、阿里、谷歌等為代表的大型云廠商/互聯網巨頭具備龐大的內部工作負載稟賦+AI大模型的優勢,有望降低單位計算成本。AIInfra:實現計算性能挖潛。AIInfra定位于算力與應用之間的“橋梁”角色的基礎軟件設施層,體現在:1)硬件集群的組網構建、算力調度系統;2)大模型+AI開發工具,增強大模型對于算力計算效率的挖潛;3)針對應用的定向優化等工作。盡管模型開源,但針對特定模型推理的優化能力、AI工具豐富度差異仍會放大云廠對同一開源模型優化后的推理成本差距。以谷歌、字節火山引擎、阿里云、DeepSeek等為代表的廠商已在AIInfra領域發布訓練/推理側工具。算力自主化:海外ASIC芯片趨勢啟示。強大的工程能力或有望彌補ASIC和GPU硬件生態差距。ASIC架構:基于脈動陣列的定制架構為重要路線;ASIC開發生態:谷歌和AWS均基于XLA,MetaMTIAv2軟件堆棧基于Triton。ASIC芯片的確定性來自:(1)供給端,芯片設計制造專業分工:降低ASIC與GPU在代工制造、后端封裝設計上的差距,ASIC輔助設計博通、邁威爾等崛起。(2)需求端:牧本擺動,有望從標準化到定制化:架構創新,催生新的定制化芯片,并再度基于新的芯片進行算法創新升級,以實現芯片性價比優勢;商業上可行:具備龐大算力需求的云廠可覆蓋開發定制化芯片的成本。ASIC制造模式:云廠前端設計+IC輔助設計支持。推薦(1)互聯網云計算:騰訊控股,阿里巴巴,金山云;谷歌、微軟、META、亞馬遜;(2)ASIC輔助設計:博通。風險提示:內容和互聯網平臺監管環境變化風險;大模型性能進步不及預期;AI應用落地進展不及預期風險主要內容AI云計算新范式:規模效應+AIInfra能力+算力自主化規模效應:資本密集度+多租戶+內部負載的削峰填谷AIInfra:實現計算性能挖潛算力自主化:海外ASIC芯片趨勢啟示重點標的:互聯網云廠+ASIC芯片重點公司估值表及風險提示4
51.1云計算:計算資源公共化,AI云聚焦于AI算力+工具服務器虛擬化軟件網絡設備存儲設備機房基礎設施數據信息應用程序運行環境中間件操作系統數據庫服務器虛擬化軟件網絡設備存儲設備機房基礎設施數據信息應用程序運行環境中間件操作系統數據庫服務器虛擬化軟件網絡設備存儲設備機房基礎設施數據信息應用程序運行環境中間件操作系統數據庫服務器虛擬化軟件網絡設備存儲設備機房基礎設施數據信息應用程序運行環境中間件操作系統數據庫基礎設施即服務IaaS平臺即服務PaaS大模型即服務MaaS(AI云提供)軟件即服務SaaS大模型API/開源模型大模型API/開源模型云服務商提供云用戶管理云服務商全棧管理云計算是將計算資源變成可租用的公共服務,強調集中管理和動態分配虛擬化計算資源,以按需自助服務、彈性擴展和按使用量計費為核心特征的標準化服務模式,實現相對企業自建數據中心的性價比優勢。傳統云計算指基于CPU服務器,主要為傳統工作負載提供支持。AI云的區別在于,硬件平臺基于GPU服務器,主要提供包括MaaS層在內的各環節AI工具及服務。圖:云計算按服務方式的分層資料來源:CSDN
61.1云計算:AI時代云需求明確提升,重點關注未來競爭公司2023年云收入2023年YoY云收入占比2024年云收入2024年YoY云收入占比云經營利潤率亞馬遜90813%16%1,07619%17%37%微軟智能云79735%95620%37%40%以上谷歌33126%11%43231%17%14%阿里巴巴9942%11%1,1358%12%9%金山云70-14%100%7810%100%-6%中國移動83366%8%1,00420%10%中國聯通51042%14%68617%18%中國電信97268%19%1,13917%22%公司23Q323Q424Q124Q224Q324Q4微軟70%69%79%78%79%97%亞馬遜-24%-12%5%54%81%91%Meta-30%-15%-2%36%41%94%谷歌11%45%91%91%62%30%阿里巴巴-57%28%221%75%240%259%騰訊控股%%%%%%百度61%90%57%-22%-53%-36%AI對于算力基礎設施的需求明確提升,各云廠在AI云收入拉動下營收增速回暖、Capex將增長加速已成為市場共識。本報告則旨在聚焦于未來的AI云競爭,在規模效應、AIInfra能力、算力自主化三大層面討論AI云競爭格局變化和未來利潤率趨勢。表:國內及海外主要云廠商營收增速回暖(單位:美股標的為億美元,其他標的為億人民幣)表:國內及海外主要云廠商Capex同比增速大幅提升資料來源:各公司財報,研究
71.2AI云新范式:更多競爭要素,看好互聯網云/大型云資料來源:研究注:本表內海外大型云/互聯網巨頭包括微軟、亞馬遜、谷歌、META對于云計算而言,云服務工具/資源的豐富度、計算資源的利用率為云廠商盈利核心。相對傳統云,AI云計算出現新范式:云技術重新進入快速迭代階段、資本更為密集,對云廠商的資本密集度、產能利用率、云基礎設施能力、工具和生態的豐富度、自研芯片布局等維度均提出新要求。AI云實現盈利的門檻將進一步提升,看好擁有技術能力、云多租戶、內部負載規模效應的互聯網云/大型云。圖:AI云相對傳統云,在資本開支、產能利用率、技術能力等方面提出更高要求傳統云計算AI云計算核心競爭要素傳統云基礎設施強調穩定性及服務,虛擬化、容器等技術已趨于成熟IT設備成本占比約為40%-50%,基建、運維占比相對高,對產能空置有一定容忍度資本密集型,以CPU服務器為主2023年海外大型云/互聯網巨頭Capex總和為1534億美元AI云的基礎設施能力仍在快速迭代,且各廠商能力差異大,體現在大模型推理成本等領域IT設備成本占比約為60%-70%,折舊壓力更大,對產能空置容忍度很低,擁有內部負載/自研大模型/云多租戶十分重要以GPU服務器為主,單集群Capex更龐大2024年海外大型云/互聯網巨頭Capex總和為2504億美元規模效應-資本密集度規模效應-產能利用率AIInfra-云基礎設施能力主要提供數據分析工具、Devops平臺等服務,工具豐富度除傳統工具外,競爭格局還受到云廠商提供的AI工具豐富度影響AIInfra-工具/生態豐富度主要云廠商亞馬遜、阿里巴巴、谷歌等均在自研CPU等芯片主要云廠商谷歌、亞馬遜、阿里巴巴等均在針對特定工作負載自研AIASIC芯片算力自主化自研ASIC芯片
81.2AI云ROI:更強的規模效應、AIInfra能力、算力自主化AI云利潤率將由三大方向影響,不同能力、規模間的AI云利潤率或將拉開較為明顯的差距。1)需求側-規模效應提升算力利用率:增加工作負載保證集群滿負載、實現算力需求削峰填谷;2)供給側-AIInfra能力提升硬件計算效能:對應用程序/大模型至硬件間的組網、軟件算法進行優化;3)長期供給側-算力自主化降低硬件成本:中長期維度降本途徑。資料來源:研究AIInfra能力AIInfra工程能力軟硬件技術、研發導向提升計算效能,提升同等芯片在單位時間內可完成的訓練/推理任務量規模效應自研/投資大模型云多租戶需求量龐大而穩定的AI內部工作負載軟件技術、業務運營導向提升產能利用率:削峰填谷,平穩地工作負載,攤薄折舊成本算力自主化ASIC芯片設計能力開發生態構建能力硬件技術、研發導向降低硬件采購成本,提升單位資本開支可獲取的算力應用程序-算力負載MaaS/PaaS算力平臺GPU/ASIC硬件平臺規模效應:提升產能利用率AIInfra能力:計算效能挖潛算力自主化:自研ASIC芯片前提條件核心因素降本方式圖:AI云的ROI主要由規模效應、AIInfra優化、算力自主化帶來應用程序-AI云工程棧主要內容AI云計算新范式:規模效應+AIInfra能力+算力自主化規模效應:資本密集度+多租戶+內部負載的削峰填谷AIInfra:實現計算性能挖潛算力自主化:海外ASIC芯片趨勢啟示重點標的:互聯網云廠+ASIC芯片重點公司估值表及風險提示9
102.1資本密集度:構建AI云集群的支出量級仍在不斷擴大海外:根據各企業指引,2024年谷歌、微軟、亞馬遜、META的Capex總計2504億美元;若假設2025年(即FY25Q3-FY26Q2)微軟保持FY25Q2的資本開支水平,則四家巨頭的Capex預計將接近3400億美元,同比增速有望達到35%。隨著各家Capex已達到較高基數水平,預計26年增速或有所放緩。國內:阿里巴巴指引25-27年資本開支將達到3800億元,年均將接近1300億元;騰訊指引Capex將占營收的低兩位數百分比(LowTeens)。圖:海外主要互聯網云巨頭資本開支快速增長資料來源:谷歌、微軟、亞馬遜、META財報,Bloomberg,申萬宏源研究20%10%0%-10%60%70%80%90%050100150200250300CY2022Q3CY2023Q1CY2023Q3CY2024Q1CY2024Q3微軟AmazonMetaGoogle合計同比(億美元)圖:國內主要互聯網云巨頭資本開支快速增長05010050%25040%20030%15030035040018Q118Q319Q119Q320Q120Q321Q121Q322Q122Q323Q123Q324Q124Q3阿里騰訊百度(億人民幣)
112.1資本密集度:AI視頻/Agent到來將提升算力需求量級資料來源:谷歌、Meshy官網,申萬宏源研究AI應用即將走向AIAgent、視頻、3D等模態,對算力的消耗量級將進一步提升:文字交互的推理單次請求目前僅為數百Tokens的計算量,但AIAgent的復雜任務規劃、多步推理,以及視頻和3D工具的單次推理,消耗Tokens的量級將相對文字交互明確提升。此外,AI有望拉動國內企業上云需求,進一步帶動云計算Capex提升。表:圖片/視頻生成及AIAgent預計將帶來更高量級算力需求功能模型價格具體消耗文字對話谷歌Gemini2.0Flash輸入:0.1美元/百萬Tokens;輸出:0.4美元/百萬Tokens4字符/Token,100Tokens大約相當于60-80英文單詞,每輪對話生成300個單詞,則消耗大約500Tokens圖片生成谷歌Imagen3生成圖片:0.04美元/圖片按同等價格算約等同于10萬Tokens文字輸出算力視頻生成谷歌Veo2生成視頻:0.5美元/s8s視頻價格為4美元,按同等價格算約等同于1000萬Tokens文字輸出算力AIAgent基于基礎大模型參照文字對話消耗越復雜的任務需要的大模型推理步數更多。AIAgent完成某一簡單代碼開發需要約20步,則算力消耗為單步推理的20倍以上(多步推理還需考慮狀態維持開銷、動態規劃損耗等算力消耗),復雜代碼開發則需要更多推理步數。3D模型生成Meshy生成模型+紋理:0.4美元/個按同等價格算,約等同于100萬Tokens文字輸出算力
122.2產能利用率:AI云IT設備折舊壓力大,空置容忍度更低單位:百萬美元3Q22A4Q22A1Q23A2Q23A3Q23A4Q23A1Q24A2Q24A3Q24A4Q24A亞馬遜10327120811112311589121311311411684120381344215631QoQ17.0%-7.9%4.2%4.7%8.1%-10.9%3.0%11.7%16.3%谷歌393336022635282431713316341337083,9854205QoQ-8.4%-26.8%7.2%12.3%4.6%2.9%8.6%7.5%5.5%微軟2790364835493874392159596027638073836827QoQ30.8%-2.7%9.2%1.2%52.0%1.1%5.9%15.7%-7.5%METAQoQ9.3%8.4%3.9%9.0%9.7%7.7%7.8%10.7%10.8%表:FY24Q4亞馬遜縮短部分服務器及網絡設備折舊年限至5年,季度折舊攤銷成本環比加速增加資料來源:谷歌、微軟、亞馬遜、META財報,Bloomberg,申萬宏源研究注:微軟的折舊中包含收購暴雪動視后的無形資產折舊等典型傳統數據中心建設成本占比典型AI數據中心建設成本占比基礎設施30%-40%25%-35%IT設備40%-50%60%-70%服務器/IT設備:60%-70%80%-90%存儲及網絡/IT設備:30%-40%10%-20%運維及人工10%-20%5%-10%對比傳統云計算,AI云廠將面臨更大的折舊壓力,利潤率將對產能利用率更為敏感,將形成更強規模效應。1)AI云的IT設備在建設成本的占比提升:AI服務器+網絡設備折舊周期更短,通常折舊年限在5-6年,而基礎設施折舊年限通常超過15年;短折舊項占比更高,AI云廠面臨更大的折舊壓力。2)AI服務器實際折舊周期更短:不同于發展成熟的CPU,GPU/ASIC仍處于高速更新迭代階段,可能加速折舊。以亞馬遜FY24Q4財報為例,重新將部分IT設備折舊年限從6年縮短至5年。表:折舊期限更短的IT設備在自建AIDC成本占比重中更高,產能空置的容忍度大幅降低
13衡后產能利用率影響將凸顯AI云計算需求供不應求,拉動云廠營業利潤率自23Q3后明確回暖。H100等GPU租賃價格保持在較高水平,為核心云廠帶來了較為豐厚的投資回報率;此外北美云廠疊加北美宏觀經濟從23Q3后從悲觀預期中逐漸修復。盡管當前云廠營業利潤率對折舊成本抬升仍不敏感,但仍需關注,隨著臺積電COWOS產能逐漸釋放,GPU將從緊缺逐漸轉向平衡,GPU租賃價格或有所回落,屆時云廠AI算力產能利用率對利潤率影響將更明確體現。表:AI算力供不應求+需求回暖,主要云廠利潤率持續提升后仍保持較高水平資料來源:谷歌、微軟、亞馬遜、阿里巴巴財報,Bloomberg,申萬宏源研究注:微軟智能云業務在Azure之外還包括服務器產品等其他業務單位:億美元CY23Q1CY23Q2CY23Q3CY23Q4CY24Q1CY24Q2CY24Q3CY24Q4谷歌云營收74.5480.3184.1191.9295.74103.47113.53119.55同比增速28.1%28.0%22.5%25.7%28.4%28.8%35.0%30.1%營業利潤率2.6%4.9%3.2%9.4%9.4%11.3%17.1%17.5%亞馬遜AWS營收213.54221.40230.59242.04250.37262.81274.52287.86同比增速15.8%12.2%12.3%13.2%17.2%18.7%19.1%18.9%營業利潤率24.0%24.2%30.3%29.6%37.6%35.5%38.1%36.9%Azure營收增速30.0%31.0%35.0%35.0%34.0%31.0%微軟智能云營收182.44198.89200.13215.25221.41237.85240.92255.44同比增速18.5%20.1%21.4%19.6%20.4%18.7%營業利潤率44.5%43.6%42.5%阿里云營收(億人民幣)185.82251.23276.48280.66255.95265.49296.10317.42營收YoY-2.1%4.1%2.3%2.6%3.4%5.9%7.1%13.1%EBITAMargin.%.%.%.%.%.%.%.%
14?
對于大模型/云廠商而言,應用訪問需求在日內呈現明顯周期性和波動性:1)日間算力需求高峰期:盡可能實現訪問請求量相對穩定
減少波動性,避免峰值需求過高偏離可服務量,擁有云多租戶/大規模用戶的AI應用至關重要。2)夜間算力需求低谷期:盡可能增加時效性要求偏低的任務負載,平抑需求周期性。圖:DeepSeek應用推理節點數量按需彈性變化,日間需求平穩并跑滿產能,夜間實現彈性調整資料來源:知乎@DeepSeek,申萬宏源研究日內需求穩定并發:龐大的用戶體量保持實際訪問量接近峰值可服務訪問量,減少波動性夜間算力彈性調整:DeepSeek動態調整節點數量降低夜間GPU使用量
15云多租戶/大規模AI應用平抑波動性:以互聯網云為代表的云廠,對AI布局較早并已吸引眾多AI初創公司客戶,旗下擁有用戶規模較大的AI應用(豆包、騰訊元寶)以及內部AI負載,可實現日內需求的穩定性。內部負載調度均衡平抑周期性:互聯網云廠擁有較為旺盛的非實時算力需求,包括大模型/多模態工具/推薦系統的訓練迭代需求、數據分析處理需求等,可以運行于算力需求低谷期,可平抑需求的周期性。表:多租戶/應用+非實時內部負載將幫助AI云算力實現削峰填谷資料來源:研究整體需求日間需求波動夜間需求填補對AI云的要求較長時間維度內對客戶需求的準確估算擁有云多租戶、大規模AI應用擁有云多租戶、自有業務的非實時AI算力需求提升產能利用率方式根據云客戶或自身需求設計集群規模,減少因租戶不足而帶來的產能空置實際滿足算力需求的大數定律,擁有云多租戶、應用用戶數量大的AI應用,可以保持在大部分時間段的負載相對穩定,而租戶、應用用戶少的情況下更可能出現的需求波動性,導致算力空載。由于夜間推理訪問量較少,1)可運行時效性要求較低的AI工作負載,包括模型訓練、離線推理、推薦系統訓練等,填補夜間算力空閑時間。2)可通過大幅降價吸引云租戶業績運行工作負載。
162.4互聯網云:閉源大模型將影響云競爭格局、算力需求量閉源模型仍為主要模式,云廠商可通過自研大模型+投資大模型廠商形成模型獨占,獲取更大市場份額,增加云客戶數量、提升對于云廠的算力需求量。海外TOP3閉源廠商(OpenAI-微軟+甲骨文、谷歌、Anthropic-亞馬遜)+以阿里為代表國內大模型云廠。但開源模型亦逐漸走向繁榮,一定程度上縮小大模型能力差距對云廠競爭格局的影響力。DeepSeek接力META的Llama系列大模型,領導開源生態逐漸走向繁榮,此外阿里、谷歌等廠商也開源部分模型構建開發者生態,預計閉源與開源兩大路徑將共存。表:主要大模型性能排名資料來源:HuggingFace,研究注:時間截止2025年3月,并未包括字節跳動與百度等公司的大模型ArenaScore排名模型Arena分數模型廠商是否開源1Grok-3-Preview-02-241412xAI閉源2GPT-4.5-Preview1411OpenAI閉源3chocolate(EarlyGrok-3)1402xAI閉源4Gemini-2.0-Flash-Thinking-Exp-01-211384谷歌閉源5Gemini-2.0-Pro-Exp-02-051380谷歌閉源6ChatGPT-4o-latest(2025-01-29)1377OpenAI閉源7DeepSeek-R11363DeepSeek開源8Gemini-2.0-Flash-0011357谷歌閉源9o1-2024-12-171352OpenAI閉源10Qwen2.5-Max1336阿里巴巴閉源13DeepSeek-V31318DeepSeek開源14GLM-4-Plus-01111311智譜AI閉源16Claude3.7Sonnet1309Anthropic閉源18Step-2-16K-Exp1305階躍星辰閉源28Hunyuan-Large-2025-02-101271騰訊閉源Meta-Llama-.-B-Instruct-bfMeta開源
172.4互聯網云:龐大的工作負載+潛在AI應用將攤薄成本互聯網云公司擁有龐大的可遷移至AI芯片的內部工作負載,以META為例,2022年開始將推薦系統負載轉移至GPU服務器上,此外搜索引擎、大模型訓練推理、潛在爆款AI應用均可運行于AI芯片,具備規模效應。內部負載/全球性應用可調節算力芯片工作峰谷。1)任務調整:將時效性要求更低的負載(例如大模型/推薦系統訓練迭代、數據分析處理)用于閑時。2)全球布局的企業,日間與夜間工作負載的時差可以被平抑。表:國內互聯網云廠商擁有龐大工作負載,可有效攤薄成本資料來源:字節跳動、阿里巴巴、騰訊、百度官網及財報,Omdia,申萬宏源研究AI芯片布局 大模型及AI開發框架 已推出的核心AI應用 可在AI芯片上運行的內部工作負載字節跳動外購:根據Omdia,2024年公司購買了23萬片H100
大模型:豆包;多模態BuboGPT開發平臺:CozeAI平臺AI視頻工具:即夢AIChatbot:豆包AIAgent平臺:小悟空云計算:火山引擎推薦系統:應用矩陣抖音、TikTok、剪映、今日頭條等的AI推薦算法阿里巴巴外購:采購英偉達芯片自研AI芯片:12nm含光800(推理)等自研CPU:倚天系列大模型:24年5月發布通義千問2.5開發平臺:百煉AI平臺AIChatbot:通義電商助手:淘寶問問(ToC)、AI生意助手(ToB)開源大模型社區:魔塔社區云計算:阿里云推薦系統:電商平臺淘寶、阿里國際站等的AI推薦算法AI助手:承擔AppleIntelligence的大模型/算力支持騰訊外購:根據Omdia,2024年公司購買了23萬片H100自研AI芯片:紫霄(推理)等大模型:24年11月推出Huanyuanlarge389BMoE開源模型開發平臺:騰訊云AI平臺AIChatbot:混元助手、騰訊元寶AI視頻平臺:騰訊智影AIAgent平臺:騰訊元器AI筆記:Imacopilot云計算:騰訊云推薦系統:微信視頻號、騰訊視頻等的AI推薦算法搜索引擎:微信搜一搜的AI搜索算法百度外購:采購英偉達芯片自研AI芯片:7nm昆侖芯二代大模型:24年6月發布文心4.0Turbo深度學習框架:飛槳AI搜索:百度AI智能問答AIChatbot:文心一言AIAgent平臺:文心智能體開發平臺:千帆
自動駕駛:蘿卜快跑云計算:百度云搜索引擎:百度搜索的AI搜索算法推薦系統:應用矩陣百度地圖、愛奇藝等的AI推薦算法
182.4互聯網云:龐大的工作負載+潛在AI應用將攤薄成本AI芯片布局大模型及開發框架AI研發布局模式已推出的核心AI應用現有業務生態協同微軟外購:根據Omdia,24年購買約48.5萬張H100芯片自研:2023年11月發布Maia100芯片大模型:OpenAI推出GPT系列模型,2023年3月推出GPT-4,24年5月推出GPT-4o,24年9月推出GPT-o1開發平臺:AzureAIStudio,包括GPT系列獨家模型及第三方大模型大比例持股體外公司+深度合作2023年向OpenAI投資100億美元,為OpenAI主要的算力提供商自研:招攬InflectionAI核心團隊,布局大模型。辦公:推出Microsoft365CopilotCRM/ERP:推出Dynamic365copilot編程工具:GithubCopilot搜索引擎:必應集成ChatGPT云計算:MicrosoftAzure辦公軟件:Microsoft365、Office操作系統:ows瀏覽器:Edge搜索引擎:Bing谷歌外購:根據Omdia,24年購買約16.9萬張H100;自研:2016年推出第一代TPU,TPUv6Trilium已上線谷歌云,性能出色。TPU芯片可基本支撐自研大模型的訓練和推理通信:自研OCS通信系統,通信性能出色大模型:2023年12月推出首個多模態大模型Gemini,24年底開始發布Gemini2.0系列深度學習框架:TensorFlow(兩大主流框架之一)、JAX開發平臺:VertexAI旗下部門自研:此前有GoogleBrain、Deepmind等多個AI研發部門/全資子公司,分立運營;2023年4月起整合為單一AI研發部門GoogleDeepmind辦公:推出DuetAI,定價30美元/月搜索:AI搜索功能AIOverview,至24年10月,已覆蓋10億用戶應用:NotebookLM其他:編程工具Alphacode等云計算:GoogleCloud辦公軟件:Workspace操作系統:安卓瀏覽器:Chrome搜索引擎:Google應用矩陣:谷歌地圖、YoutubePlaystore、GmailMeta外購:根據Omdia,2024年購買約22.4萬張H100芯片;計劃在25年底擁有130萬塊GPU自研:2024年發布MTIAv2芯片,陸續應用于推薦系統等的推理負載中,26年將應用于訓練及推理負載大模型(開源):2023年7月開源Llama2,2024年推出Llama3Llama4正在10萬卡集群上訓練,Llama4mini已完成訓練深度學習框架:Pytorch(兩大主流框架之一)旗下部門自研:AI業務均由旗下AI部門進行研發,為直屬部門模式AI推薦系統升級:截至24年10月,AI全年已提升Facebook/Ins使用時長8%/6%METAAI助手:已集成于社交軟件中,至24Q4MAU超7億廣告創意及投放:推出輔助廣告內容生成工具、AI廣告投放工具社交應用:Facebook、Instagram等元宇宙:旗下VR設備品牌Quest以及內容平臺亞馬遜外購:根據Omdia,2024年購買約19.6萬張H100自研:2020年推出Trainium,23年推出Trainium2,Rainier項目正構建數十萬卡Tranium2集群;Tranium將于年底發布自研大模型:2023年12月推出Titan系列AI模型大模型(Anthropic):24年開始持續更新Claude3.5系列開發平臺:BedrockAI搭載自研及第三方模型旗下部門自研+持股重點公司:旗下AI部門完成自研大模型研發重點投資Anthropic,2023-24年投資80億美元,并提供算力支持;谷歌也參與Anthropic多輪投資電商:為電商運營提供一系列AI功能支持,以及導購助手Rufus;生成式助手:面向企業端的AmazonQ;廣告:輔助廣告內容生成工具通過AI實現廣告智能投放提升效率云計算:AWS電商平臺:亞馬遜商城;表:海外互聯網巨頭/大型云廠商擁有多租戶/龐大內部工作負載,可有效攤薄成本資料來源:谷歌、亞馬遜、微軟、Meta、蘋果公司官網,Omdia,申萬宏源研究主要內容AI云計算新范式:規模效應+AIInfra能力+算力自主化規模效應:資本密集度+多租戶+內部負載的削峰填谷AIInfra:實現計算性能挖潛算力自主化:海外ASIC芯片趨勢啟示重點標的:互聯網云廠+ASIC芯片重點公司估值表及風險提示19
203.1AIInfra:從算力到應用的基礎設施軟件/工具資料來源:谷歌、DeepSeek官網,申萬宏源研究應用程序-算力負載MaaS/PaaS算力平臺GPU/ASIC硬件平臺AIInfra定位于算力與應用之間的“橋梁”角色的基礎軟件設施層,包括:1)算力硬件層面的組網、算力資源調度等,實現集群高效率;2)模型層面提供的工具庫、框架庫的豐富度及有效性,幫助云客戶實現高效資源調用;3)針對具體應用的定向優化。各廠商間AIInfra能力有較大差距。不同于開發生態十分成熟、潛能已充分挖掘的CPU,GPU/ASIC硬件的開發生態仍在不斷迭代豐富中,不同AIInfra工程能力的團隊對于算力硬件的利用率有較明顯差距。表:AIInfra從硬件平臺到軟件工具應用程序-AI云工程棧組網、異構計算協調AIInfra能力層所處層次主要工作AIInfra具體能力/實現方式以谷歌/DeepSeek為例的典型工作應用管理層提供資源管理、運營管理、運維管理等運營能力針對具體的應用進行定向優化,降低推理成本等谷歌:根據具體使用場景,基于大模型能力開發AIAgent、AI應用(NotebookLM)等模型管理層提供模型開發和應用所需的各種基礎工具和組件主要為軟件、算法能力。1)提供AI框架庫、開發資源庫、工具庫;2)針對大模型進行計算效率的算力優化、負載均衡、擁塞控制等谷歌:1)提供Tensorflow深度學習框架庫以及眾多工具;2)針對大模型進行定制化優化。DeepSeek:針對大模型進行專家并行、數據并行等方面的優化算力管理層提供計算、存儲、網絡、安全等基礎資源和服務主要為通信優化、算力資源調度、管理能力。包括通信組網、異構計算協調、容器管理、彈性部署等谷歌:1)組網:通過OCS組建TPU集群;2)通過Pathway實現異構計算資源大規模編排調度;DeepSeek:構建Fire-FlyerAI-HPC集群,在組網、通信方面定向優化;
213.1AIInfra:優化主要由云廠/互聯網/大模型廠商完成?
具體看,從硬件到大模型的訓練推理仍有AI框架庫、AI資源庫、底層算子等生態層次,英偉達CUDA生態提供眾多AIInfra工具,能夠提供較好的計算利用率,但以出售硬件產品為目的的英偉達,在AIInfra優化上進一步算力挖潛的動機略顯不足。因此云廠商/互聯網/大模型廠商將承擔主要的AIInfra優化、計算效能挖潛任務。圖:基于英偉達GPU的開發工程棧,DeepSeek自PTX層定制算子優化算法工程資料來源:英偉達官網,研究CUDA-XLibrariesCUDA工具包:CUDA編譯器、開發者工具等CUDA驅動:存儲管理等深度學習庫:cuDNN、CUTLASS、TensorRTAI框架庫谷歌:TensorFlow、JAXMETA:PyTorch基本計算資源庫(低維抽象):例如cuDNN最基礎庫,包含前向、后向卷積、激活函數、歸一化、張量變換等底層硬件算子庫(Kernel)驅動GPU計算單元執行Kernel核函數功能,完成計算機器學習庫:cuML、cuDF等CUDAAI框架庫(高維抽象):從數學表達到計算圖:1)張量計算引擎,2)高層算子,例如全連接、卷積、optimizer等應用程序/大模型應用/模型層:基于下游用戶場景設計特定算法,并向用戶提供相應服務高級封裝的算子易開發性計算利用率相對低底層的算法撰寫高開發維護難度更精細地算力利用PTX(并行線程執行):英偉達GPU中間指令集架構低級機器代碼:流處理匯編或英偉達SASS(StreamAssemblyCode)GPU硬件
223.2DeepSeek啟示:AIInfra能力對推理成本影響重大資料來源:《DeepSeek-V3/R1推理系統概覽》,申萬宏源研究注:僅為理論測算,未考慮收費服務的折扣以及實際收費Tokens占比,實際場景中比例將低于此AIInfra能力正拉開AI應用/大模型API的單次推理成本差距。英偉達GPU提供的開發工具適用于標準化通用需求,易開發性出色,但大模型至硬件調用間仍有多個步驟可實現成本優化,優化與否將拉開成本差距。DeepSeek測算的應用理論利潤率出色,一大核心在于其針對特定DeepSeekR1大模型進行充分優化。而同為DeepSeekR1模型搭載于第三方大模型平臺,若未進行充分優化,則其推理成本仍將相對較高。例如大模型平臺公司潞晨科技停用DeepSeekR1API接口,或為成本側難以復制DeepSeek的優化措施,成本仍較高。圖:DeepSeek列舉的DeepSeek應用理論收入及成本對比,可實現利潤/成本=545%的理論比例
233.2DeepSeek:AIInfra優化深入AI工程棧全環節?
從算力硬件到大模型的API調用,其中的眾多環節可均有較大優化空間,AIInfra能力體現在針對改善存儲瓶頸、提升通信效率、提升計算單元效率等方面,實際上是對已有GPU性能的進一步發掘:1)讓大模型推理/訓練中計算、通信、存取方式更簡潔,減少算法粗糙下的算力浪費;2)根據具體的GPU(如英偉達H100)的微架構設計,針對性實現優化。圖:DeepSeek開源周發布了各環節算法工程優化的工具資料來源:DeepSeek官網,中存算,申萬宏源研究
243.3互聯網云:在AIInfra領域已有較深技術積累資料來源:阿里云、火山引擎、騰訊云、DeepSeek官網,申萬宏源研究AIInfra能力的積累通常需要具備前沿大模型開發經驗,即完成了構建AI算力集群→基于集群的大模型訓練→提供大模型API推理服務→構建上層AI應用的全工作棧。大模型廠商/互聯網云已積累較強的AIInfra能力,發布較多AIInfra成果,包括實現萬卡集群的高利用率、提供豐富的大模型訓練和推理工具提升開發效率等,已具備較為明確的優勢。表:字節、騰訊、阿里巴巴、DeepSeek在AIInfra上的主要工作平臺IaaS重要AIInfra工作MaaS/PaaS重要AIInfra工作字節跳動火山引擎G?del實現萬卡集群的資源調度MegaScale大模型訓練框架自2022年開始在字節跳動內部各數據中心批量部署,G?del調度器已經被驗證可以在高峰期提供>60%的CPU利用率和>95%的GPU利用率。MegaScale系統在12,288個GPU上訓練175BLLM模型時模型FLOPs利用率(MFU)達到了55.2%,比起英偉達的Megatron-LM,提升了1.34倍。騰訊騰訊云平臺高性能網絡IHNTACO大模型推理加速套件單集群支持萬卡規模,單機支持3.2T大帶寬,通信占比低至6%,訓練效率提升20%。同樣以Llama-3.170B為例,使用TACO-LLM部署的成本低至<$0.5/1Mtokens,相比直接調用MaaSAPI的成本節約超過60%+,且使用方式、調用接口保持一致支持無縫切換。阿里巴巴阿里云靈駿計算集群+HPN7.0組網架構訓練框架PAI-ChatLearn靈駿計算集群提供可擴容到10萬張GPU卡規模的能力,同時在萬卡的規模下性能線性增長率達到了96%,性能網絡吞吐的有效使用率也達到了99%。相比于當前的SOTA系統,ChatLearn在7B+7B規模有115%的加速,在70B+70B規模有208%的加速。同時ChatLearn可以擴展到更大規模,如:300B+300B(Policy+Reward)。DeepSeekFire-FlyerAI-HPC集群HAILLM訓練框架在DL訓練中部署含1萬個PCIeA100GPU的Fire-Flyer2,實現了接近NVIDIADGX-A100的性能,同時將成本降低近一半,能源消耗降低了%。包括HAIScale算子庫等,針對專家并行、流水線并行、張量并行等領域的通信、計算能力進行大量優化。
253.3字節:MegaScale針對萬卡集群訓練大幅提升MFU資料來源:《MegaScale:ScalingLargeLanguageModelTrainingtoMoreThan10,000GPUs》,申萬宏源研究模型訓練兩大挑戰:1)實現高訓練效率:體現在MFU(模型計算利用率),即實際吞吐量/理論最大吞吐量,與集合通信、算法優化、數據預處理等相關,2)保持高訓練效率:體現在降低初始化時間和容錯修復能力。字節算法優化:TransformerBlock并行、滑動窗口的Attention、LAMB優化器。實現初始化時間大幅優化,2048卡GPU集群初始化時間從1047秒下降到5秒以下。實現高效容錯管理:自動檢測故障并實現快速恢復工作。網絡優化:1)基于博通Tomahawk4的交換機,優化網絡拓撲結構;2)降低ECMP哈希沖突:將數據密集型節點都安排在一個ToR交換機上;3)擁塞控制:將往返時延精確測量與顯式擁塞通知的快速擁塞響應能力結合。圖:字節在2024年2月提出的MegaScale訓練框架的MFU相對英偉達的Megatron-LM大幅優化,萬卡集群MFU達到55.2%
263.3阿里云:PAI-ChatLearn實現RLHF訓練效率提升PAI-ChatLearn是阿里云PAI團隊自研的、靈活易用的、支持大規模Alignment高效訓練的框架。ChatLearn通過對Alignment訓練流程進行合理的抽象和解耦,提供靈活的資源分配和并行調度策略。ChatLearn提供了RLHF、DPO、OnlineDPO、GRPO等對齊訓練,同時也支持用戶自定義大模型訓練流程。相比于當時的SOTA系統,ChatLearn在7B+7B規模有115%的加速,在70B+70B規模有208%的加速。圖:阿里巴巴2024年8月開源的大規模對齊訓練框架PAI-ChatLearn在Llama2模型RLHF訓練中實現更高效率資料來源:GitHub,阿里云官網,申萬宏源研究主要內容AI云計算新范式:規模效應+AIInfra能力+算力自主化規模效應:資本密集度+多租戶+內部負載的削峰填谷AIInfra:實現計算性能挖潛算力自主化:海外ASIC芯片趨勢啟示重點標的:互聯網云廠+ASIC芯片重點公司估值表及風險提示27
284.1ASICVSGPU:架構、生態、成本對比資料來源:寒武紀招股說明書CPUGPUFPGAASIC從IC設計思路來看,GPU為自下而上,即基于已設計的硬件平臺作工具豐富、生態適配工作支持上層應用;ASIC(專用集成電路)則是自上而下,基于現有應用/工作負載進行芯片架構設計,通過更定制化、針對性的架構設計匹配算法提升計算效能,但將犧牲通用性,完成非特定任務的效率較差。但云客戶更傾向于使用開發生態成熟、具備易開發性的英偉達GPU,預計在較長時間內仍將為云服務的首選。有望形成英偉達GPU仍占據公有云市場、ASIC芯片在巨頭內部負載形成替代的并行格局。圖:主要的AI算力芯片分類通用性計算效能馮諾依曼架構,串行計算為主計算單元占比較低,重在控制馮諾依曼架構,并行計算為主計算單元占比很高哈佛架構,無須共享內存可重構邏輯單元非馮諾依曼架構計算單元占比高芯片架構開發生態十分成熟僅英偉達的CUDA較成熟,其他GPU廠商生態成熟度較低可適用主流編程語言生態成熟度相對較低相對優劣勢通用性最強,編程難度低計算能力弱,不適用于AI計算通用性較強,并行計算能力出色適用于AI功耗較高,編程難度中等靈活性好,多用于推理環節峰值計算能力較弱計算效能出眾功耗低,成本更低僅在特定類別的工作負載表現出色,靈活性差,編程難度高應用構建標準化硬件,用戶基于架構固定的硬件構建應用/工作負載標準化硬件,用戶基于架構固定的硬件構建應用/工作負載可編程硬件,可靈活根據應用/工作負載在使用過程中改變硬件架構定制化硬件,根據應用/工作負載特點設計硬件架構
294.2ASIC:架構+生態大相徑庭,將成為GPU的有力補充資料來源:英偉達、谷歌、AMD、亞馬遜、META、微軟官網,申萬宏源研究NVIDIAH100NVIDIAB200NVIDIAB300AMDMI325xTPUv5pTPUv6eTrainium2METAMTIAv2微軟Maia100推出時間202220242024202420232024202320242023芯片制程4nm4nm4nm5nm5nm4nm5nm5nm5nm峰值計算性能-BF/FP16(TFlops)990225033751300459926431177800功耗700W1000W1200W1000W---90W860W存儲類型HBM3HBM3eHBM3eHBM3eHBM2eHBM3HBM3LPDDR5HBM3e存儲(GB)8019228825696329612864內存帶寬3.35TB/s8TB/s8TB/s6TB/s2765GB/s1640GB/s4000GB/s204.8GB/s1600GB/s卡間通信帶寬NVLink900GB/sNVLink1800GB/sNVLink1800GB/sInfinityFabricLink896GB/sICILinks600GB/sICILinks3584GB/sNeuronLink768GB/s-600GB/s計算強度-FP16峰值性能/存儲(Flops/GB)12.411.711.75.14.828.94.51.412.5芯片架構+開發生態ComputeDie數量122411211HBMStacks數量688862444計算單元微架構大量并行CUDA核+TensorCore大量并行CUDA核+TensorCore大量并行CUDA核+TensorCore大量并行運算核+MatrixCore少量大型脈動陣列單元少量大型脈動陣列單元少量大型脈動陣列單元多核CPU+多核AI加速單元多核AI加速單元開發生態CUDACUDACUDARocmXLAXLAXLATritonTritonGPU與ASIC在架構及開發生態上有著明確差異:架構存在差異:GPU基于通用并行計算向AI轉變,內部設計通常為大量并行計算核+小型AI加速單元TensorCore;TPU等則為僅針對AI算力需求場景直接設計內部架構,代表架構有大型脈動陣列等。開發生態存在差異:英偉達具備完整成熟的CUDA開發生態,AMDGPU/ASIC廠商開發生態均不完善。圖:各家GPU/ASIC芯片對比
304.2ASIC架構:基于脈動陣列的定制架構為重要路線資料來源:亞馬遜官網,研究GPU為馮諾依曼架構,運算中與寄存器需要高頻數據交換,對存儲容量要求較高。GPU主要是針對數據并行執行,控制單元較小,執行單元眾多,同時有大量的寄存器文件用于在多個執行線程上隱藏延遲。谷歌TPU、AWSTranium2均基于脈動陣列架構,專為矩陣計算設計,計算結果可以直接向下一個計算單元遞推,直到該維度的矩陣結果計算完畢,再與寄存器作數據存取,減少不必要的全局數據交換等。圖:脈動陣列架構專用于大型矩陣計算,可降低存儲消耗
314.2ASIC開發生態:谷歌和AWS均基于脈動陣列+XLA開發生態應在硬件架構/計算架構ROI提升的方向逐漸成熟,國內AI算力+海外云廠ASIC芯片等均具備潛力。DeepSeek實際證明擁有強大的工程團隊,有能力為其他AI芯片構建相對可用的開發生態(但易開發性預計仍有明顯差距。XLA為谷歌為TPU構建的編譯器,并陸續結合JAX等AI框架形成開發生態,逐漸走向成熟,同為脈動陣列架構的AWSTranium2同樣采用XLA,將加速相關生態更新迭代。圖:谷歌TPU/亞馬遜Trainuim基于XLA的開發生態棧MaxTextPyTorch&HuggingFace
LibrariesOptaxOrbaxAQTFlaxJAXPyTorch/PyTorchXLAXLAXLATPUTPU/TrainiumLLMReferenceImplementation核心資源庫AI框架庫編譯器JAXTrainingStack硬件PyTorchTrainingStackJAXCoreLibraries資料來源:谷歌官網
324.2ASIC開發生態:METAMTIAv2軟件堆棧基于Triton資料來源:Pytorch官網注:LLM模型選用Meta的Llama3-8B和IBM的Granite-8B代碼模型,推理計算使用FP16Triton為OpenAI于2021年7月推出的類似Python的開源編程語言,旨在降低GPU的編程難度,但Triton并不非常依賴單一廠商的GPU,可拓展至MTIAv2等非GPU硬件架構。Pytorch正致力于推廣Triton,已經在英偉達GPU上實現無CUDA條件下較高的硬件效率。MTIAv2基于Triton,并提供Triton-MTIA編譯器進一步優化軟件堆棧。圖:MTIAv2軟件堆棧主要基于Triton編程語言圖:Pytorch使用無CUDA的Triton編譯語言實現較高的GPU調用效率
334.2ASIC成本:具備性價比,但使用范圍相對局限我們簡單測算各家芯片的制造成本,主要根據各芯片具體的存儲容量、晶圓尺寸等進行測算,并根據英偉達、博通、Marvell/AIChip大致的毛利率進行估計,大致推測各家芯片的價格。ASIC芯片在特定任務部署中實際具備性價比,但受限于開發生態:1)開發過程中,生態不成熟存在開發效率損失,一定程度提升隱性成本。2)場景限于云廠內部負載,云客戶基于其開發的難度較大。表:各家GPU/ASIC芯片預計的成本拆分對比測算資料來源:英偉達、谷歌、AMD、亞馬遜、META、微軟官網,申萬宏源研究注:成本及單價僅為估算,實際價格與成本為動態變化單位:美元H100B200TPUv5pTPUv6eTrainium2廠商英偉達英偉達谷歌-博通谷歌-博通亞馬遜-AIChip/Marvell制程4nm4nm5nm4nm5nm峰值計算性能-BF16/FP16(TFlops)9902250459926431存儲(GB)96192963296存儲類型HBM3HBM3eHBM2eHBM3HBM3預計存儲成本1150270010004001150預計制造、封測等成本135021508005501000總成本2500485018009502150預計業務毛利率85%~90%85%~90%65%~70%65%~70%47%~53%估算的各家芯片單價
4.2ASIC成本:典型訓練場景具備性價比資料來源:《ScalingLawsforNeuralLanguageModels》,英偉達、谷歌、亞馬遜官網,申萬宏源研究34注:標紅為非官方公布的假設數據,僅用以本表格進行計算圖:訓練400B開源Llama3大模型預計各芯片所需時間及成本對比芯片產品NVIDIAH100NVIDIAB200GPUNVIDIAGB200SuperchipGoogle/博通TPUv5pAWS/MarvellTrainium2訓練LLama3405B模型所需的FP16算力總量(ZFLOPS)1800018000180001800018000單卡FP16峰值性能(TOPS)99022505000459650計算性能使用效率(%)40%40%40%40%40%平均計算性能(TFLOPS)3969002000184260單卡單日算力(PFLPOS)34214777601728001586322464集群單日算力(ZFLOPS)82118664147381539大模型訓練所需的運行天數(24000卡集群)221044733算力芯片硬件成本AI加速器芯片數量-算力集群2400024000240002400024000AI加速器芯片數量-每臺服務器8836816服務器數量-算力集群3000300066730001500AI加速器芯片價格(美元/片)18000330007000060004400AI加速器芯片+CPU價格(萬美元)-每臺服務器14426425244871AI加速器芯片+CPU的成本(億美元)-算力集群43.379.3168.314.510.6折舊年限44444算力集群中AI算力硬件年折舊費用(億美元)10.819.842.13.62.7能源成本AI加速器設計功耗700W1000W2400W700W700W每瓦特AI計算性能(TFLOPS/Watt)1.42.32.10.70.9服務器中AI計算單元功耗(千瓦)6.28.697.26.211.8電源使用效率(PUE)1.51.41.21.31.5AI服務器電力功耗(千瓦)9.312.0116.68.117.7AI集群電力功耗(千千瓦)27.936.177.824.226.6AI算力集群運行成本(不包括網絡和基建等)電價(千瓦時/美元)0.100.100.100.100.10耗電量(萬千瓦時)5873343241097851能源成本(萬美元)59333211085集群算力硬件折舊成本(萬美元)AI計算總成本(萬美元)708557533578328
354.3為什么ASIC增長趨勢明顯?從供需兩端出發上游供給:芯片設計制造分工化:全球芯片設計制造分工化以及ASIC輔助設計的成熟,大幅降低了ASIC與GPU之間在代工制造、后端封裝設計等領域的差距,差異集中在前端設計和軟件開發生態。云廠需求:1)技術/架構演進:牧本擺動本質為針對通用芯片的算法演進迭代陷入停滯后,需要在架構上進行創新,催生新的定制化芯片,并再度基于新的芯片進行算法創新升級,以實現芯片性價比優勢。當前正處于重要節點。2)商業化驅動:算力需求量級提升,具備龐大算力需求的廠商足以覆蓋開發定制化芯片的成本。資料來源:研究圖:云廠開發自研ASIC芯片已具備商業化、技術驅動力云廠需求:商業化驅動云廠需求:技術/架構演進驅動算力開支量級上升:達到重新設計一款芯片的綜合成本臨界點。單芯片的價格更低:成本側后續有望實現量產爬坡。牧本擺動:按需定制化設計算力的端到端方案在算力中的效能、利用率正體現優勢推理側對算力芯片要求或更低:大模型推理算法相對訓練更固定,對于芯片性能、開發生態靈活性要求可略降低上游供給:芯片設計制造行業的分工化芯片制造與IC設計的分工:半導體產業正從Sharingfoundry到Sharingdesignhouse轉變,共享代工廠+后端設計封裝等鏈路。AIASIC輔助設計企業逐漸成熟:博通、AIChip為代表的企業已經在TPU、Trainium的設計和制造中積累了豐富經驗和制造流程管理能力。
364.4如何設計制造ASIC?云廠前端設計+IC輔助設計支持云廠:僅維持相對精簡的IC設計團隊,無須困擾于龐雜的芯片制造流程。云廠可根據自有業務場景的算力需求進行前端設計(邏輯設計、仿真驗證等)等環節,并避免在主業之外形成龐大半導體業務部門。IC輔助設計:提供后端設計、制造流片等環節支持。博通、Marvell、AIChip通常提供IC設計所需的IP核等,并完成后端設計、封裝測試設計等,全流程跟蹤、優化晶圓廠代工流片的制造流程,最終向云廠交付。圖:ASIC芯片設計流程,輔助設計廠商可輔助完成后端設計到流片管理等環節資料來源:摩爾精英前端設計后端設計流片封裝測試量產電路物理實現芯片架構咨詢后端設計芯片方案優化工藝選型新產品導入量產產能支持供應鏈管理專業技術支持數據安全封裝設計仿真可靠性方案工程批設計系統級分裝封裝量產管理晶圓測試成品測試測試工程開發測試量產管理ATE設備研發產品認證分析訂單管理質量管控計劃管理DPPM優化良率監控良率優化IP定制芯片架構咨詢邏輯前端設計仿真與優化ASIC輔助設計廠商完成:根據客戶的設計,提供IP核支持、封裝設計、流片等生產環節管理應用公司完成
1H20232H1H20242H1H2025E2H亞馬遜Trainium2HBM396GB5nmMRVL/AIchipTrainium3HBM3nmAIChip等存儲制程ASIC輔助設計谷歌TPUv5eTPUv5pTrilliumv6存儲HBM216GBHBM2e96GBHBM332GB制程5nm5nm4nmASIC輔助設計博通博通博通MetaMTIAv1MTIAv2存儲LPDDR564GBLPDDR5128GB制程7nm5nmASIC輔助設計博通博通微軟Maia100存儲HBM3e64GB制程5nmASIC輔助設計創意電子374.4ASIC落地路線圖:海外云廠硬件成本優化進行時ASIC技術難度較大,目前已驗證能力的產品主要為谷歌TPU。亞馬遜Tranium2進入大規模爬坡投產階段,仍待Anthropic等廠商進一步驗證性能。ASIC開發周期通常為3-4年,2026年將進入密集落地期。META指引25H2推理卡MTIA系列將用于推薦系統等領域,26年將推出訓練卡。根據路透社,OpenAI的ASIC芯片有望在25年流片測試,并計劃在26年爬坡。另外,包括微軟、ARM在內的多家公司已開啟ASIC項目,后續將密集落地。表:預計各公司ASIC芯片投產路線圖資料來源:亞馬遜、谷歌、微軟、META官網,博通、Marvell財報,申萬宏源研究主要內容AI云計算新范式:規模效應+AIInfra能力+算力自主化規模效應:資本密集度+多租戶+內部負載的削峰填谷AIInfra:實現計算性能挖潛算力自主化:海外ASIC芯片趨勢啟示重點標的:互聯網云廠+ASIC芯片重點公司估值表及風險提示38
395.1阿里云:國內云廠領軍,強技術能力,云增長高確定性?
阿里云為國內云廠領軍;集團CEO吳泳銘在23年底接管阿里云后,確定新戰略為“AI驅動,公共云優先”;圖:阿里云調整后EBITA利潤率(%)58%59%60%50%37%29%33%20%12%10%4%3%-2%4%2%3%3%6%7%13%-10%0%10%20%30%40%50%60%70%050100150200250300350表觀收入(億元)20Q120Q220Q320Q421Q121Q221Q321Q422Q122Q222Q322Q423Q123Q223Q323Q424Q124Q224Q324Q4同口徑YoY-%-1%0%2%2%2%1%1%1%2%2%2%2%5%8%5.6%8.8%9.0%9.9%-4%-%0%2%4%6%8%10%12%-1%20Q120Q220Q320Q421Q121Q221Q321Q422Q122Q222Q322Q423Q123Q223Q323Q424Q124Q224Q324Q4Tiktok停用阿里云業務AI已帶動云業務經營持續改善。互娛與在線教育等互聯網行業的客戶需求放緩圖:阿里云業務收入(億元,%)經濟活動減慢、持續推動高質量及中國互聯網行業經常性收入增長,客戶的需求疲軟;減少利潤率較低的疫情影響部分混項目式合約類收入合云項目交付AI相關產品收入持續錄得三位數同比增長資料來源:阿里巴巴財報,申萬宏源研究
405.1阿里云:國內云廠領軍,強技術能力,云增長高確定性芯片名稱發布時間芯片類型關鍵參數主要應用場景含光8002019.9人工智能芯片12nm制程,集成170億晶體管,性能峰值算力達820,192M本云計算服務、電商智能搜索、電商營銷地存儲,采用自研TPU羽陣6002021.1RFID電子標簽芯片滿足EPCGlobalClass-1Generation-2UHFRFID協議,讀取智慧零售、智慧物流、航空包裹跟蹤、庫存管理靈敏度達-21dBm,96-bit出廠預編程EPC區(只讀)倚天7102021.1Arm服務器芯片5nm制程,Armv9架構,128核心數,主頻最高達3.2GHz倚天云服務器、AI推理、大數據、視頻編解碼、電商羽陣6112022.11RFID電子標簽芯片滿足EPCglobalG2V2和ISO/IEC18000-6C協議,讀取靈敏度-鞋服、快消品零售、智慧物流、供應鏈管理、動23dBm,寫入靈敏度-20dBm,128-bitEPC,96-bitTID永久態資產管理鎖定,32-bit訪問密碼和滅活密碼共享鎮岳5102023.11SSD主控芯片12nm制程,IO處理能力達到3400KIOPS,數據帶寬達到 電商、大數據、虛擬化、軟件定義存儲、邊緣計14GByte/s,能效比達到420KIOPS/Watt算?
阿里云核心競爭優勢為強技術能力:1)芯片,全資半導體芯片業務主體——平頭哥;2)模型能力國內一梯隊。蘋果確認選擇阿里巴巴作為國內iPhone的AI合作商,再證阿里云強技術能力.表:平頭哥芯片產品圖:3/6開源通義千問QwQ-32B模型,性能比肩671B參數的DeepSeeK-R1圖:2/25開源視頻生成大模型萬相2.1,VBench測評中分數超越Sora、Pika等位居榜首資料來源:平頭哥半導體官網,通義萬相Wan公眾號,阿里云公眾號,申萬宏源研究
415.2騰訊控股:云SaaS差異化競爭,AI應用后發優勢突出圖:2023年中國云會議市場份額(%)產品融資2018Pre-A輪融資3.4億,騰訊領投2019第一代訓練產品云燧T10發布A輪融資3億,紅點領投2020第一代推理產品云燧i10發布B輪融資7億,武岳峰領投2021第二代訓練產品云燧T20/T21發布,第二代推理產品云燧i20發布C輪融資18億,中信產業基金、中金資本旗下基金、春華資本領投2022人工智能加速集群產品一云燧智算機發布C+輪融資,國家集成電路產業投資基金投資2023D輪融資20億,上海國際集團子公司及旗下基金領投2024新一代推理產品燧原S60發布騰訊云業務自22年起轉為聚焦高質量增長,資源集中于視頻云、網絡安全等PaaS,騰訊會議、企業微信等SaaS。投資燧原+SaaS差異化競爭,將增強騰訊云競爭力:騰訊為AI芯片公司燧原科技第一大股東,根據愛企查,持股比例為21%。騰訊辦公SaaS產品與微信打通,具備強用戶優勢;23年起加強變現。表:燧原科技大事記資料來源:燧原科技官網,IDC,騰訊會議官網,申萬宏源研究賬號數量 定價 部分功能區別免費版1單場會議40分鐘限制專業版1-582.34元/月/賬號,按年購買;或按每月98元購買不限時會議,AI小助手Pro可提供會議紀要等功能商業版6-255115.84元/月/賬號,按年購買;或按每月139元購買企業版≥256個聯系銷售教育版學生與公益人群特惠折扣表:騰訊會議收費騰訊會議華為云會議小魚易連會暢通訊其他注:23年4月,單場會議人數上限從疫情期300人縮減至100人,會議時長從“不限時”調整為分鐘(人會議不限時);年月,免費版會議時長從分鐘縮短至分鐘(僅人會議不限時)。
425.2騰訊控股:云SaaS差異化競爭,AI應用后發優勢突出類型 產品 大模型 接入AI后實現的功能騰訊元寶混元+DeepSeekR1日常通用AI搜索、總結微信搜一搜混元+DeepSeekR1日常通用AI搜索、總結騰訊文檔ima.copilot混元+DeepSeekR1混元+DeepSeekR1它可以生成文檔、表格、幻燈片、思維導圖、智能文檔等基于知識庫的AI搜索、總結企業微信混元+DeepSeekR1包括AIAgent在內的多種AI生產力效率工具騰訊AI代碼助手混元+DeepSeekR1AI代碼生成、代碼補全、代碼解釋、代碼檢查等AIAgent平臺 騰訊元器混元+DeepSeekR1可構建定制化的AIAgent瀏覽器+AIAgentQQ瀏覽器混元+DeepSeekR1支持深度思考、聯網搜索、多輪對話、歷史紀錄回溯等,包括搜索、翻譯、記筆記等功能金融+AI助手理財通混元+DeepSeekR1應用于理財通社區、智能客服等場景,可整合專業金融信息數據、微信公眾號文章等資源社交+AI助手QQ音樂混元+DeepS
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- T/IAC 2-2016商業保險職業分類與代碼
- 巴斯夫英文面試題及答案
- 比亞迪業務面試題及答案
- java快速算法面試題及答案
- 用友汽車java面試題及答案
- 初級java程序員面試題及答案
- 地震類面試題及答案
- 航天科技面試題及答案
- 公需知識考試題及答案
- 社區護理學:環境與健康
- 折扣零售業態在社區商業中的布局策略與盈利模式研究報告
- 醫院護工面試題及答案
- 高校學生資助誠信教育主題活動
- 上海市徐匯區2025屆七年級生物第二學期期末教學質量檢測試題含解析
- 河南中考:歷史必背知識點
- 臍橙代銷銷售合同協議
- 腸易激綜合征中西醫結合診療專家共識(2025)解讀課件
- 水利工程課件
- 灸法完整版本
- 建筑概論考試試題及答案
- 回彈法混凝土強度檢測方法課件
評論
0/150
提交評論