2025大模型發展回顧、國內外大模型進展及未來研判分析報告_第1頁
2025大模型發展回顧、國內外大模型進展及未來研判分析報告_第2頁
2025大模型發展回顧、國內外大模型進展及未來研判分析報告_第3頁
2025大模型發展回顧、國內外大模型進展及未來研判分析報告_第4頁
2025大模型發展回顧、國內外大模型進展及未來研判分析報告_第5頁
已閱讀5頁,還剩89頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

3.2、OpenAI:全球AI大模型風向標,自然語言/多模態/推理模型上均作為引3.5、Antropic:Claude-3.5對標OpenAI,Agent系列computeruse推動人機交互1.1.1、大語言模型(LLMs)的興起——自回歸架構強化文本生成能力語言模型是一種人工智能系統,旨在處理、理解和生成類似人大多數LLMs以自回歸方式操作,根據前面的文本預測下一個字(或token/sub-word)的概率分布。這種自回歸特性使模型能夠學習復雜的語言1.1.2、Transformer架構克服RNN長文本局限性,標志著NLP的分水嶺時刻2017年谷歌團隊提出Transformer模型,Transformer架構也標志著NLP的分水嶺時刻。Transformer突破了早期模型如循環神經網絡(RNNs)與 解碼器:與編碼器幾乎相同,除了額外的潛在多頭注意力,它在編碼器的輸出上操作。解碼器的目標是將編碼器輸出與目標序列融合,并進行預測(或預測下一解碼器:與編碼器幾乎相同,除了額外的潛在多頭注意力,它在編碼器的輸出上操作。解碼器的目標是將編碼器輸出與目標序列融合,并進行預測(或預測下一個令牌)。Transformers架構的主要模塊之一,位于輸入序列的輸入處。編碼器將輸入序列轉換為壓縮Transformers架構中,編碼器重復了6次(這可以更改)。每個編碼器塊都有3個主要層,層歸一化和MLPs(前饋神經網絡)。1.1.4、Transformer核心點1——自注意力機制(Self-Attention)注意力機制允許模型在解碼時,根據當前生成的詞動態地關注輸入序列中的不同部分,有效捕捉與輸出相關的輸入信息,而非依賴于某個固定這3個向量負責將輸入信息依次將點積規范化為softmax(加權這3個向量負責將輸入信息依次將點積規范化為softmax(加權輸入的token經過嵌入層轉計算查詢Q和鍵K的點積,并除1.1.4、Transformer核心點1——多頭注意力機制:運行多個自注意力層,提升模型表達能力Multi-headedattention(多頭注意力機制)增強了自注意能力,擴展關注位置,同時為注意力層提供多個“表示子空間”。假設模型若用了8個注與自注意力機制的區別:將線性變換后的與自注意力機制的區別:將線性變換后的查詢、鍵和值矩陣分割成多個頭。每個頭都有自己的查詢、鍵和值矩陣。然后,在每個頭中獨立地計算1.1.5、Transformer核心點2——前饋神經網絡:激活函數:用于在網絡中引激活函數:用于在網絡中引入非線性,使得網絡能夠學偏置:加在輸入上的常數,用于調1.2.1、預訓練Transformer模型時代(2018–2020):GPTVSBERTTransformer架構的出現也標志著預訓練模型的崛起及對擴展性的重視。BERT與GPT的誕生便顯OpenAI的GPT系列采用了與BERT差異化的方法,借助自回歸預訓練來強化生成能力。2018年OpenAI發布GPT的第一個版本,憑借Transformer單向自回歸訓練單向自回歸訓練:GPT使用因果語言建模目標進行訓練,其中模型僅基于前下游任務的微調:GPT的一個關鍵貢獻是它能夠在不需要特定任務架構的情況下針對特定下游任務進行微調。只需添加一個分類頭或修改輸入格式,GPT就可以適應諸如情感分析、機器翻譯和問答MLM(掩碼語言建模):BERT不是預測序列中的下一個詞,而是被訓練預NSP(下一句預測):模型學習預測兩個句子是否在文檔中連續,從而理解1.2.2、GPT-3以1750億參數開啟了預訓練側Scalinglaw敘事預訓練側Scalinglaw的敘事開始出現,模型性能隨著模型大小、數據集大小以及訓練使用的計算量的增加而平穩提升。在2018年至20201.2.3、Post-training重要性凸顯,RLHF范式出現(2021–2022)GPT-3同時也表現出大型語言模型與人類價值觀、偏好及期望保持一致上的挑戰。其中,“幻覺”問題尤為突出,即RLHF(基于人類反饋的強化學習)解決了SFT中可擴展性和性能限制的問題。RLHF包括兩個階段,首先:1)根據人類偏好數據集訓練一個獎了生成更符合人類偏好和期望的輸出。圖圖:監督微調SFT以及基于人類反饋的強化學習RLHF1.2.4、訓練側Scalinglaw瓶頸出現,推理側接過Scalinglaw敘事大旗ScalingLaw描述了模型性能隨著模型參數、數據量和計算資源增加而提升的冪律關系,但這種提升并非線性,而是呈現出收益遞減現象。在模werunoutofdata?LimitsofLLMscalingbasedonhuman-generateddata》中統計2024年,AI開發開始強調增強推理(Reasoning),從簡單的模式識別轉向更邏輯化和結構化的思維過程。2024年9月,OpenAI發布o1-preview,據資料來源資料來源:量子位公眾號、《GovernmentNudging:Apublicpolicytooltoinfluencecitizensbehaviors》AiudiStefano、甲子光年公眾號1.3.1、Transformer受限于長序列場景,計算復雜度與輸入序列表現為指數增長關系長序列場景下Transformer計算復雜度顯著提升:自注意力機制的計算復雜度為O(N2,d其中N代這意味著Transformer模型的計算復雜度會隨著輸入序列長度(token數量)的增加呈二次方增長,這種高計算復雜度會導致計算資源的大量消耗,對硬件性能提出了極高的要求。隨著基于Transformer架構的模型規模不斷擴大,訓練和部署成本限制。1.3.2、Mamba架構集成Transformer+RNN優勢,成為Transformer架構的強勁挑戰者則為SSM的一種變體。Mamba可根據輸入對SSM進行重新參數化,讓模型在濾除不相關信息的同時無限期地保留必要和相關的數據。在CVPR2025上,英偉達推出混主要貢獻包括1)引入了重新設計的適用于視覺任務的Mamba模塊,提升了相較于原始Mamba架構的準確性和圖像處理能力;2)系統性地研究了2.1、國內大模型:行業充分競爭,降本提效為主旋律相較2024年初實現了翻倍以上的增長。學術血脈的智譜清言、B端市場發力的訊飛星火、文字生成領域具備領先優勢的Kimi、媲美Sora視頻生成能力的可靈、聚焦B端發力的華為盤古、霸榜開源社區下載量的Qwen、依托騰訊生態優勢的元寶、依托字節巨大流量入口的豆包以及250200已備案模型數量2002023年8月2023年9月2023年10月2023年11月2023年12月2024年1月2024年2月2024年3月……2024年10月2023年8月2023年9月2023年10月2023年11月2023年12月2024年1月2024年2月2024年3月……2024年10月模型名稱核心能力技術特點典型應用場景DeepSeek-R1思維鏈深度推理、數學能力出色、深度學習算法強化學習訓練、GRPO算法、冷啟動技術、模型蒸餾科研分析、編程輔助阿里Qwen2.5多語言處理、128Ktokens上下文、代碼生成修復、數學推理集成阿里云生態、大規模預訓練、逐層推理文案策劃、編程開發、數據分析豆包1.5Pro多模態交互、知識理解、代碼生成、邏輯推理大規模稀疏MoE架構、自主數據生產體系、7倍MoE性能杠桿視頻創作、電商導購、語音助手、文案撰寫騰訊混元多輪交互、長上下文理解、知識增強、多模態能力文本、圖像、視頻處理多種數據處理、靈活微調能力文檔生成、智能客服、媒體創作、游戲角色生成百度文心4.0搜索引擎增強、多模態生成知識增強的ERNIE架構、多模態融合、中文處理優勢文本創作、智能客服、知識檢索和分析訊飛星火多模態交互、代碼生成、復雜問題邏輯分析、深度理解自然語言語義語音識別準確率行業領先、多語言支持智能教育、會議轉錄、智能客服月之暗面Kimi200萬字長文本處理、多格式文本解析、信息檢索超長上下文理解、支持文本、語音、視覺信息處理、個性化調優學術研究、內容創作智譜GLM-4多任務語言理解、128K上下文處理、文生圖、多模態理解能力Transformer架構、推理速度迅捷、智能體能力PPT生成、文本創作、智能客服、教學輔導天工大模型4.0中文邏輯推理、多模態交互、情感理解與個性化服務能力三階段自研訓練方案、自蒸餾和拒絕采樣技術、端到端語音對話智能學習助手、醫療輔助分析、智能客服、文本創作Baichuan-M1-preview語言、視覺和搜索推理能力、精準視覺分析Transformer架構、萬億級token醫療數據、ELO算法醫療輔助決策、文獻信息提取、代碼優化MiniMax-01400萬token上下文處理、長文本理解與檢索線性注意力機制、優化的混合專家架構、硬件友好與計算優化智能助手、文案撰寫、創意設計、文獻數據解讀零一萬物Yi-Lightning高效推理、數學與代碼能力、多語言處理MoE混合專家模型架構、混合注意力機制、動態top-p路由智能客服、內容創作、零售電商、文本數據分析、算法驗證階躍星辰Step-2自然語言理解與生成、多領域推理、模糊指令處理自主研發MFA架構、百萬億參數MoE架構、多階段訓練模式內容創作、智能客服、教學資源生成、科研文獻分析2.2、DeepSeek:早期確立AI戰略,模型家族涵蓋標準語言模型/推理模型/多模態模型DeepSeek是一家于2023年成立的中國初創企業,創始人是AI驅動量化對沖基金幻方量化的掌門人梁文鋒。2021年,幻方量化的資產管理規模突破千億大關,躋身國內量化私募領域的“四大天王”之列。2023年梁文鋒宣布人工智能。限、高度扁平化的文化,以此激發研究靈感,高效調配資源。2023年5月DeepSeek正式成立時,團隊已匯聚近百名卓越工程師。如今,即便不計杭模型類別名稱對標LLM2023年11月2日DeepSeekCoder模型包括1B,7B,33B多種尺寸,開源內容包含Base模型和指令調優模型。Meta的CodeLlama是業內標桿,但DeepSeekCoder展示出多方位領先的架勢。2024年6月17日DeepSeekCoderV2代碼大模型,提供了236B和16B兩種版本。DeepSeekCoderV2的API服務也同步上線,價格依舊是「1元/百萬輸入,2元/百萬輸出」。能力超越了當時最先進的閉源模型GPT-4-Turbo。2023年11月29日DeepSeekLLM67B首款通用大語言模型,且同步開源了7B和67B兩種不同規模的模型,甚至將模型訓練過程中產生的9個checkpoints也一并公開,Meta的同級別模型LLaMA270B,并在近20個中英文的公開評測榜單上表現更佳。2024年3月11日DeepSeek-VL多模態AI技術上的初步嘗試,尺寸為7B與1.3B,模型和技術論文同步開源。2024年5月DeepSeek-V2通用MoE大模型的開源發布,DeepSeek-V2使用了MLA(多頭潛在注意力機制將模型的顯存占用率降低至傳統MHA的5%-13%對標GPT-4-Turbo,而API價格只有后者的1/702024年9月6日DeepSeek-V2.5融合模型Chat模型聚焦通用對話能力,Code模型聚焦代碼處理能力合二為一,更好的對齊了人類偏好,2024年12月10日DeepSeek-V2.5-1210DeepSeekV2系列收官之作,全面提升了包括數學、代碼、寫作、角色扮演等在內的多方能力。2024年12月26日DeepSeek-V3開源發布,訓練成本估算只有550萬美金性能上全面對標海外領軍閉源模型,生成速度也大幅提升。推理模型2024年2月5日DeepSeekMat數學推理模型,僅有7B參數數學推理能力上直逼GPT-42024年8月16日DeepSeek-Prover-V1.5數學定理證明模型在高中和大學數學定理證明測試中,均超越了多款知名的開源模型。2024年11月20日DeepSeek-R1-Lite推理模型,為之后V3的后訓練,提供了足量的合成數據。媲美o1-preview2025年1月20日DeepSeek-R1發布并開源,開放了思維鏈輸出功能,將模型開源License統一變更為MIT許可證,并明確用戶協議允許“模型蒸餾”。在性能上全面對齊OpenAIo1正式版2023年12月18日DreamCraft3D文生3D2023年12月18日DreamCraft3D型2024年12月13日型2024年12月13日DeepSeek-VL2多模態大模型,采用了MoE架構,視覺能力得到了顯著提升,有3B、16B和27B三種尺寸,在各項指標上極具優勢。2025年1月27日DeepSeekJanus-Pro開源發布的多模態模型。2.2、DeepSeek:DeepSeek-R1性能對標OpenAIo1正式版,實現發布即上線DeepSeek-R1性能比肩OpenAI-o1。DeepSeek-R1在后訓練階段大規模使用了強化學習技術,在僅有極少標注數據的情況下,極大提升了模型推開放的許可證和用戶協議。DeepSeek在發布并開源R1的同時,同步在協議授權層面也進行了如下調整:1)模型開源License統一使用MIT,圖:圖:DeepSeek-R1性能比肩Open圖:DeepSeek-R1發布即上線2.2、DeepSeek:DeepSeek-V3/R1均具備領先的性價比優勢DeepSeek系列模型均具備顯著定價優勢。DeepSeekV3模型定價:隨著性能更強、速度更快的DeepSeek2元(緩存未命中每百萬輸出tokens8元。DeepSeek-R1百萬tokens輸出價格約為o1的1/27。Dee圖:圖:DeepSeek-R1定價對比同為推理模型的o1系列圖:DeepSeek-V3API定價對比海內外主流模型2.2、以DeepSeek視角看模型降本增效范式2025年2月24日,DeepSeek官宣開源周開放五大核心技術單元庫,呈現DeepSeek高性能低成本核心架構。其中包括提升計算效率為主的FlashMLA面,實現GPU節點間以及GPU節點內部的通信效率的大幅提升。DualPipe+EPLB則面向計算+通信任務之間的調度,通過大幅降低GPU空置率提升整圖:圖:GPU計算維度看5大開源核心代碼庫的核心作用DeepEP任務讀取計算DeepEP……計算FlashMLAFlashMLA……DeepGEMMDeepGEMMDualPipe+EPLBDualPipe+EPLB2.2、DeepSeek開源庫1:FlashMLA大幅提升顯存帶寬+推理效率2025年2月24日,DeepSeek開啟了為其5天開源周的第一個開源項目——FlashMLA。FlashMLA是一個針對HopperGPU優化的高效MLA(多頭潛在注意力機制)解碼內核,支持變長序列處理,現在已經投入生產使用。FlashMLA實現在H800SXM5GPU上具有3000GB/s的內存速度上限以及580TFLOPS的計算上限。FlashMLA主要是通過優化MLA解碼和分頁KV緩存,提高LLM的推理效率,尤其是在H100/H800類高端GPU上發揮顯著性能。當前GPU的計算和cutlass項目。FlashAttention是一種高效的注意力計算方法,專門針對Transformer模型的自注意力機制進行優化,核心目標是減少顯存占用并加2)2)2.2、DeepSeek開源庫2:DeepEP專為MoE及EP設計的通信庫,高效優化通信機制DeepEP是DeepSeekMoE的訓推EP通信效地傳遞數據;尤其是MoE中因為不同專家需要頻繁交換信息,并且MoE模型容易在專家并行中出現負載不均衡,導致每個專家分到的算力不均,據硅星GenAI公眾號數據,在實測中,DeepEP在H800上4096個token同時處理的場景下,達到了153GB/s的傳輸速度,接近硬件理論極限2.2、DeepSeek開源庫3:DeepGEMM為支持密集+混合專家的FP8GEMM庫 GEMM(通用矩陣乘法)是線性代數中的基本運算,也是科學計算、機器學習、深度學習等領域中常用的計算方式,但由于計算量較大使得GEMM的性能優化至關重要。DeepGEMM保持了DeepSeek“高性能+低成本”的技術特性,推動GEMM朝著更高效率方向發展;具體亮點包括:1) 2.2、DeepSeek開源庫4:DualPipe+EPLB多維度提升GPU計算效率&降低空閑率DualPipe(雙向管道并行算法)基于DeepSeek-V3技術報告提出的雙向管道等值算法。現有方法無法精確控制計算任務和通信任務對硬件資源的使大幅減少了訓練過程中的空閑時間。EPLB(專家并行負載均衡器)具有動態負載均衡、分層與全局平衡結合以及流量優化三大需頻繁執行Token分發與結果聚合,導致GPU計算資源大量閑置;因此如何將通信隱藏到2.3、豆包大模型:實時語音、視頻生成/理解領域布局,2024H2發力月活沖上全球第二創新業務的新部門Flow,聚焦于AI大模型及AI應用層的產品研發。2024年5月,字節跳動正式發布了自研的豆包大模型,通過火山引擎正式對外提供服務。2025年1月,豆包實時語音大模型上線開圖圖:豆包實時語音模型客戶使用滿意度超GPT-4o0287.2516.92%11.27%59.985.67%59.9849.632.3、豆包大模型:新模型豆包pro1.5依靠稀疏MoE架構實現小參數高性能,MoE杠桿提升至7x2025年1月22日,豆包全新基礎模型Doubao-1.5-pro正式發布,模型能力全面升級,融合并進一步提升通過模型結構和訓練算法優化,豆包將MoE模型的性能杠桿提升至7倍,此前業界的普遍水平為不到3倍。MoE模型的性能通常可以用表現相同的稠密模型的總參數量和MoE模型的激活參數量的比值來確定,據豆包大模型團隊公眾號數據,如IBM的Granite系列模型中,800M激活的MoE能,將性能杠桿提升至7圖:圖:Doubao-1.5-pro多個基準2.3、豆包大模型:開源MoE通信優化技術COMET、萬卡集群部署已節省數百萬GPU小時COMET已落地萬卡集群,累計節省數百萬GPU小時。豆包團隊在多個大規模MoE模型中評估了COMET的端到端性能,COME圖圖:COMET在多個MoE模型中的測試結果2.4、Qwen:AI為阿里巴巴未來戰略核心,Qwen系列掀起國內模型開源革命以AI為戰略核心,阿里布局Qwen系列大模型。阿里將AI視為未來戰略核心,依托中國市場份額第一的阿里云為通義千問提供算力支持。阿里大2024年6月,阿里開源發布Qwen2,2023年8月以來,Qwen/Qwen1.5/Qwen2/Qwen2.5相繼開源,覆蓋多模態/數學/代碼模型等數十種,掀起了國內模型的開源革命。Qwen系列模型位居全球開源模型榜首。據全球最大AI開源社區HuggingFace數據顯示,截至2025年2月,阿里Qwen開源大模型的衍生模型數量已2.4、Qwen:新模型Qwen2.5max實現性能領先,布局推理模型QwenQwQ座模型在11項基準測試中全面領先開源模型,指令模型則在多項任務中與Claude-3.5-Sonnet持平。據三方基準測試平臺,Qwen2.5-Max在2025年2月25日,Qwen上線新推理功能——深度思考(QwQ),發布預覽版推理模型。QwQ是在QWQ-MAX-PREVIEW(推理模型)支持下,同時是基于Qwen2.5-Max的推理模型。類似DeepSeekR1和kimi的推理模型,QwQ可同時支持深度思考和聯網搜索,并會展示完整的思維鏈。Qwen團2.4、Qwen:QwQ-32B登頂全球領先開源模型,強化學習能力再驗證2025年3月6日,阿里云發布并開源了全新的推理模型通義千問QwQ-32B,性能比肩DeepSeek-R1滿血版。通過大規模強化學習,千問QWQ-32B在數學、代碼及通用能力上實現質的飛躍,整體性能比肩Deepseek-R1。在保持強勁性能的同時,千問QwQ-32B還大幅降低了部署使用成本,其參數量約為DeepSeek-R1滿血版的1/21且推理成本是后者的1/10。QwQ-32B已成為全球領先開源模型,核心為強化學習。在LiveBench榜單中,QwQ-32B以綜合評分92.3分位列全球第五,超越OpenAIGPT-4.5圖圖:QwQ-32B已經登頂全球最強開源模型圖:QwQ-32B測試集對比3.1、海外大模型:CSP大廠重點參與,格局頭部集中海外頭部大模型依托資源壁壘形成強馬太效應。大模型隨著2022年ChatGPT的發布進入大眾視野,同時與OpenAI資源匹敵的Google、Meta同樣成為了底層模型的主要競爭者,Google、Meta基于自身超過30億的用戶體量,不斷基于用戶數據反哺模型訓練;而亞馬遜則通過投資Anthropic來布局AI領域。當前海外主流的AI模型競爭玩家包括技術能力以及用戶數全球領先的OpenAI系GPT模型、依托亞馬遜/谷歌投資的Anthropic模型Claude、谷歌自大模型核心能力技術特點典型應用場景海外OpenAIGPT-4自然語言語義理解、多模態交互、知識集成與復雜推理強化Transformer架構、多模態融合、對抗訓練機制、優化訓練策略編程輔助、學術研究、商業分析、內容創作OpenAlo3-mini強大推理鏈條、多種編程語言、安全可控輸出、多語言處理推理鏈條技術,安全評估機制,強化學習,可調節智能推理編程開發、教育領域、醫療行業、多語言交流、智能客服OpenAlSora視頻內容生成、場景理解與想象先進的視頻生成算法,能夠基于文本描述生成高質量視頻影視制作、廣告宣傳、虛擬現實內容創作谷歌Gemini2.0多模態無縫融合、自然語言處理、文生圖、數學復雜任務推理優化Transformer架構、聯合訓練技術、層次化多任務學習、生成對抗網絡技術Al搜索、智能助手、醫療診斷AnthropicClaude3.5復雜問題推理、強大視覺理解、編程能力出色多任務學習架構、UnstructuredGeneralization算法數據分析、游戲開發、內容創作xAlGrok-2快速信息檢索、幽默交互、實時動態感知與X平臺數據深度結合,響應速度快社交媒體運營、實時問答、娛樂互動MetaLlama3.3開源模型定制、128K上下文窗口、推理表現出色Transformer架構、15萬億token訓練數據、在線偏好優化文案策劃、智能客服、代碼優化MistralAlLeChat多領域對話、高質量圖像生成、帶引文的網頁搜索低延遲響應迅速、Mistral預訓練模型知識、先進視覺與OCR技術、生成對抗算法創意設計、代碼補全、數據統計分析、智慧助手3.2、OpenAI:全球AI大模型風向標,自然語言/多模態/推理模型上均作為引領角色式成立。2018年,OpenAI基于Transformer推出第一代GPT模型GPT-1,核心在于采用了Transformer的解碼器架構,通過生成式3.2、OpenAI:GPT-5即將發布,Agent領域加速布局GPT-5即將迎來發布,實現OpenA來綜合大量在線信息并為用戶完成多步驟研究任務的智能體,旨在幫助用戶進行深入、復雜的信息查詢與分析,用戶將可以在幾十分鐘內完成人類需要數小時才能完成的工作。據第三方消息,OpenAI計劃為專業人士推出量身定制版Agent,用于執行銷售線索分類、軟件工程和博士級研究等高圖:GPT-5將迎來發布3.3、Google:Gemini面向智能體時代新作,原生多模態領域前瞻布局2025年2月谷歌宣布產品線全面升級,所有用戶進入“Gemini2.0”時代,推出了正式版Gemini2.0Flash、模型Gemini2.0Pro實驗版,同時在GeminiApp中推出其推理模型Gemini2.0FlashThinking實驗版。Gemini2.0集成谷歌搜索、代碼執行以及第三 3.3、Google:核心優化多模態能力+智能體構建,加速推動用戶(端側+云端)增長谷歌在2024年12月的內部戰略會議上明確提出,GeminiAI計劃成為第16個實現5億月活躍用戶的谷歌產品。CEO桑達爾強調2025年將加速Gemini的消費者端擴展,目標是通過多模態功能(如語音、圖像、視頻交互)和全場景適配(端側設備與云端協同)實現用戶增長。Gemma基于Gemini的研究成果和技術架構開發,共享相同的數據集、底層Transformer架構優化以及安全技術,是獨立訓練的輕量級版本,針對特定場景(如單GPU運行)優化。2025年3月12日,谷歌發布Gemma3模型,并稱之為“世界上最好的單加速器模型”,在配備單個圖:Gemma3在測試靠前的同時需要的GPU數量極少3.4、Meta:10年布局躋身全球AI巨頭,Llama成為全球開源模型標桿十年布局,Meta躋身全球AI巨頭。2013年Meta的AI布局起始,經歷了實驗室成立、技術路線圖發布、產品應用探索、組織架構調整和生成式AI崛起等階段。2022年AI推薦引擎成熟,成為驅動Meta產品參與度的總要推動力。2022年2月Meta公開發布了Llama1,基于Transformer架構包括7B-65B四種參數規模。2023年7月18日,Llama2發布(與微軟合作有70-700億參數規模,用于訓練基礎模型的數據增加了40Llama開源與OpenAI閉源戰略形成直接對比,形成開源模型標桿。Llama不僅賦能了Meta自身各大社交平臺,包括為Facebook、Instagram和智能軟件。圖:Llama在HuggingFace上下載量接近3.5億,較2023年同期增長10x(2024/8)3.4、Meta:Llama3.3提升后訓練實現低成本高性能、智能體生態加速構建Llama3.1:2024年7月24日,Llama推出Llama3.1405B,同時發布了全新升級的Llama3.170B和8B模型。Llama3.140Llama3.2:2024年9月26日,Llama3.3:2024年12月,Llam智能體生態構建:基于Llama的智能體項目(如MetaLive)已實現實時語音交互、跨設備協作(如雷朋眼鏡集成定位為“個人數碼助手”。未3.5、Antropic:Claude-3.5對標OpenAI,Agent系列computeruse推動人機交互變革Anthropic是成立于2021年的人工智能初創企業,由前OpenAI資深成員DarioAmodei帶領的七人精英團隊共同創辦。Anthropic顯著區別于同行的2023年3月,Anthropic推出了Claude大模型;隨后產品進一步升級迭代,于2024年3月發布了Claud動完成網頁信息搜尋等。圖:新版Claude-3.5-sonnet測評圖:Claude-3.5-sonnet新增comp3.5、Antropic:先于OpenAI推出通用+推理混合模型Claude-3.7-sonnetAnthropic發布市場上首個混合推理模型Claude-3.7-sonnet。2025年2月25日,Anthropic發布了Claude3.7Sonnet,Claude3.7Sonnet是市場上首個混Claude-3.7-sonnet核心能力在于用戶可以自己自行選擇標準模式or深度思考模式,在選擇深度思考模式下用戶可以控制思考的預算時間。在標準模式下,Claude3.7Sonnet是Claude3.5Sonnet的升級版本;在擴展思考模式碼和其他許多任務上的性能;通過API使用Claude3.7Sonnet時,用戶還可以控制思考的預算,具體表現為可以告訴Claude在回答時最多思考N個tokens,N的最大值為128Ktokens的輸出限制,使得用戶可以在速度(和成本)與回答質量之間進行權衡。此前OpenAI表示,GPT5也將是個混合圖:圖:Claude-3.7-sonnet在軟件工程領域測評創下高分圖:Claude-3.7-sonnet多領域評分超OpenAI/DeepSeek4.1、模型架構的演進:從Dense到MoE,模型大幅降本提效這樣就會形成有多層MoE的MoE;而門控網絡或者路由來決定將哪個token發送給哪個專家。MoE層取代了傳統的MoE架構還可以將不同專家擴展到多個設備上,資料來源:《資料來源:《GShard:ScalingGiantModelswithConditionalComputationandAutomaticSharding》、國海證券研究所4.1、模型架構的演進:從Dense到MoE,模型大幅降本提效國內外主流企業差異化推進MoE大模型布局和落地,2024年全球MoE大模型數量呈爆發增長態勢。據53AI網統計,2024年1-5月全球發布MoE大持續推出國際領先大模型,并利用MoE控制成本,GPT-4實現“性能/成本"提升Qwen1.5-MoE-側重MoE架構創新,提升大模型通用性把握國內先發優勢,重視MoE大模型訓采用MLA(多頭注意力)機制并自研MoE架構,實現成本大幅降低,應對大模型“價格戰”

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論