




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
互聯網行業專題研究一、大模型發展情況1、行業發展歷程語言是人類表達和交流的突出能力,其在兒童早期發展并在一生中不斷演變。然而,除非配備強大的人工智能(AI)算法,機器不會自然地掌握理解和使用人類語言的能力。要讓機器像人類一樣閱讀、寫作和交流一直是一個長期的研究挑戰。從技術上講,語言建模(LanguageModel,LM)是提高機器語言智能的主要方法之一。一般來說,LM旨在對單詞序列的生成概率進行建模,以便預測未來(或缺失)單詞的概率。LM的研究在學界中得到了廣泛的關注,可以分為四個主要發展階段:統計語言模型(SLM):SLM是基于20世紀90年代興起的統計學習方法開發的。其基本思想是基于馬爾可夫假設構建單詞預測模型,例如根據最近的上下文預測下一個單詞。具有固定上下文長度n的SLM也被稱為n-gram語言模型,例如二元和三元語言模型。SLM已經被廣泛應用于提高信息檢索(IR)和自然語言處理(NLP)任務的性能。然而,它們經常受到維度災難的影響:由于需要估計指數級的轉移概率,因此很難準確估計高階語言模型。因此,專門設計的平滑策略,例如后退估計和Good-Turing估計已經被引入為緩解數據稀疏問題。神經語言模型(NLM):NLM通過神經網絡,例如遞歸神經網絡(RNNs),來描述單詞序列的概率。作為一個顯著的貢獻,Y.Bengio和R.Ducharme等人引入了單詞的分布式表示的概念,并構建了基于聚合上下文特征(即分布式單詞向量)的單詞預測函數。通過擴展學習詞或句子有效特征的想法,已有研究開發了一種通用神經網絡方法來為各種自然語言處理任務構建統一解決方案。此外,word2vec提出了構建一個簡化的淺層神經網絡,用于學習分布式單詞表示,這在各種NLP任務中被證明非常有效。這些研究開創了語言模型用于表示學習(超越了詞序列建模)的應用,對NLP領域產生了重要影響。預訓練語言模型(PLM):作為早期嘗試,ELMo被提出來通過預訓練一個雙向LSTM(biLSTM)網絡(而不是學習固定的詞表示)來捕捉上下文感知的詞表示,然后根據特定的下游任務微調biLSTM網絡。此外,基于高度可并行化的Transformer架構和自注意力機制,BERT提出了通過在大規模無標注語料庫上設計特定的預訓練任務來預訓練雙向語言模型。這些預訓練的上下文感知的單詞表示非常有效,可作為通用語義特征,大大提高了NLP任務的性能。這項研究啟發了大量的后續工作,建立了“預訓練和微調”學習范式。在此范式下,開發了大量關于PLM的研究,引入了不同的架構(例如GPT-2和BAR)或改進的預訓練策略。在這個范式中,通常需要微調PLM以適應不同的下游任務。大型語言模型(LLM):研究人員發現,擴展PLM(例如擴展模型大小或數據大小)通常會導致模型在下游任務上具有更強的能力(即遵循縮放定律)。一些研究探索了通過訓練更大的PLM(例如175B參數的GPT-3和540B參數的PaLM)來達到性能極限。盡管縮放主要是在模型大小(具有類似的架構和預訓練任務)方面進行的,但這些大型PLM顯示出與較小PLM(例如330M參數的BERT和1.5B參數的GPT-2)不同的行為,并展現出令人驚訝的能力(稱為涌現能力)以解決一系列復雜任務。例如,GPT-3可以通過上下文學習來解決少樣本任務,而GPT-2做不好。因此,研究界為這些大型PLM創造了“大型語言模型(LLM)”的術語。LLM的一個顯著應用是ChatGPT,它利用GPT系列的LLM適應對話,具有驚人的與人類對話的能力。大語言模型相較于以往的語言模型具備顯著優勢,其具備優秀的上下文學習能力、可觀的知識容量、優秀的泛化性和復雜推理能力。大型語言模型研究的發展有三條技術路線:Bert模式、GPT模式、混合模式。其中國內大多采用混合模式,多數主流大型語言模型走的是GPT技術路線,直到2022年底在GPT-3.5的基礎上產生了ChatGPT。到2019年后,Bert路線基本沒有標志性的新模型更新,而GPT技術路線則趨于繁榮。從Bert往GPT演化的過程中,模型越來越大,所實現的性能也越來越通用。各類大語言模型路線各有側重,GPT模式在生成類任務表現最優。大型語言模型按照從數據到知識來劃分,數據可分為通用數據和領域數據,知識分為語言知識和世界知識。從任務類型來劃分,大型語言模型可以分為單一任務和多任務、理解類和生成類;Bert模式有兩階段(雙向語言模型預訓練+任務Fine-tuning),適用于理解類以及某個場景的具體任務,表現得“專而輕”。GPT模式是由兩階段到一階段(單向語言模型預訓練+zero-shotprompt),比較適合生成類任務、多任務,表現得“重而通”。T5模式則將兩者的方法結合,包含有兩階段(單向語言模型預訓練+Fine-tuning)。根據當前研究結論,如果模型規模不特別大,面向單一領域的理解類任務,適合用T5模式,而GPT模式在做生成類任務時的效果最好。綜合來看,當前幾乎所有參數規模超過千億的大型語言模型都采取GPT模式。如今,LLM正在對人工智能社區產生重大影響,ChatGPT和GPT-4的出現引發了重新思考人工智能通用智能(AGI)的可能性。OpenAI已經發表了一篇名為“PlanningforAGIandbeyond”的技術文章,討論了實現AGI的短期和長期計劃,而最近的一篇論文則認為GPT-4可能被視為一個早期版本的AGI系統。LLM的快速進步正在徹底改變人工智能的研究領域。在自然語言處理領域,LLM可以在某種程度上充當通用語言任務求解器,研究范式已經轉向使用LLM。在信息檢索領域,傳統的搜索引擎正在被AI聊天機器人(即ChatGPT)挑戰,而NewBing則是基于LLM增強搜索結果的初始嘗試。在計算機視覺領域,研究人員試圖開發類似于ChatGPT的視覺語言模型,以更好地服務于多模態對話,而GPT-4通過集成視覺信息已經支持多模態輸入。這股新的技術浪潮有可能會導致基于LLM的真實世界。例如,Microsoft365正在被LLM(如Copilot)賦能以自動化辦公工作,而OpenAI支持在ChatGPT中使用插件來實現特殊功能。起源于Transformer模型,ChatGPT經過5年迭代成功出世。ChatGPT的誕生經歷了從Transformer->GPT->GPT2->GPT3->ChatGPT的逐步迭代過程,其具體發展歷程如下:(1)2017年6月,Google發布論文《Attentionisallyouneed》,首次提出Transformer模型,成為GPT發展的基礎;(2)2018年6月,OpenAI發布論文《ImprovingLanguageUnderstandingbyGenerativePre-Training》,首次提出GPT模型,即GPT-1,模型參數量達1.17億;(3)2019年2月,OpenAI發布論文《LanguageModelsareUnsupervisedMultitaskLearners》,提出GPT-2模型,大模型共計48層,參數量達15億;(4)2020年5月,OpenAI發布論文《LanguageModelsareFew-ShotLearners》,提出GPT-3模型,參數量達1750億;(5)2022年2月底,OpenAI發布論文《Traininglanguagemodelstofollowinstructionswithhumanfeedback》,公布InstructionGPT模型,參數量達13億;(6)2022年11月30日,OpenAI推出ChatGPT模型,并提供試用。2、大語言模型概覽通常,大型語言模型(LLMs)是指包含數千億(或更多)參數的語言模型,它們是在海量文本數據上進行訓練的,例如GPT-3,PaLM,Galactica和LLaMA。具體來說,LLMs建立在Transformer架構之上,其中多頭注意力層在一個非常深的神經網絡中堆疊。現有的LLMs主要采用類似的模型架構(即Transformer)和預訓練目標(即語言建模)作為小型語言模型。作為主要區別,LLMs大量擴展了模型大小、預訓練數據和總計算量(數量級)。它們可以更好地理解自然語言,并基于給定的上下文(即提示)生成高質量的文本。這種能力提升可以部分地由縮放法則描述,即性能大致隨著模型大小的增加而顯著增加。然而,一些能力(例如上下文學習)是不可預測的,只有當模型大小超過一定水平時才能觀察到。百億參數量級別的模型:這類模型的參數規模除了LLaMA(最大版本65B參數)和NLLB(最大版本54.5B參數),大多在10B至20B之間。這一參數范圍內的模型包括mT5、PanGu-α、T0、GPT-NeoX-20B、CodeGen、UL2、Flan-T5和mT0等。其中,Flan-T5(11B版本)可以作為研究指令微調的首選模型,因為它從三個方面探索了指令微調:增加任務數量、擴大模型規模和使用思維鏈提示數據進行微調。CodeGen(11B)是一個為生成代碼設計的自回歸語言模型,可用作探索代碼生成能力的候選模型,其提出了一個新的基準測試MTPB,專門用于多輪程序合成,由115個專家生成的問題組成,為了解決這些問題,需要大語言模型獲得足夠的編程知識(例如數學、數組操作和算法)。對于多語言任務,mT0(13B)可能是一個比較好的候選模型,因為它在多語言任務中使用多語言提示進行微調。此外,對于中文的下游任務,PanGu-α具有較好的表現,特別是在零樣本或小樣本的設置下,該模型基于深度學習框架MindSpore開發,擁有多個參數版本(最大版本200B參數),而最大的公開版本只有13B參數。此外,作為最近發布的模型,LLaMA(65B)在與指令遵循相關的任務中展現了卓越的性能。由于其開放性和有效性,LLaMA引起了研究界的廣泛關注,許多工作致力于微調或繼續訓練其不同的模型版本以實現新模型或工具的開發。百億參數量級別的模型通常需要數百甚至上千個GPU或TPU。例如,GPT-NeoX-20B使用了12個微服務器,每個服務器配備了8個NVIDIAA100-SXM4-40GBGPU,LLaMA使用了2048個A100-80GGPU。為了準確估計所需的計算資源,我們還是建議使用衡量涉及計算量的指標,例如計算FLOPS(每秒浮點數運算次數)。據中移智庫統計,截止到2023年4月18日,國內至少有19家企業及科研院所涉足人工智能大模型訓練,主要分為大型科技公司、科研院校和初創科技團隊三類。具體來看:百度、阿里等12家大型科技公司和中國科學院、清華大學等3家科研院校已經提供開放測試,或有明確的推出時間計劃;字節跳動、搜狗創始人王小川、美團創始人王慧文、創新工場創始人李開復等則是最近對外宣布組建團隊,進軍大模型研發領域。其中,字節跳動旗下火山引擎于4月18日發布自研DPU(數據處理器)等系列云產品,推出新版機器學習平臺,可以支持萬卡級大模型訓練、微秒級延遲網絡,為預訓練模型提供強大的算力支持。從大模型參數量看,科技大廠的參數量遠大于科研院所。科技大廠的大模型參數量較大:阿里通義千問大模型參數在10萬億級以上、騰訊混元大模型和華為盤古大模型參數量均在萬億級以上、百度文心一言大模型參數量在2千億級以上、京東言犀大模型的參數量為千億級;垂直行業科技企業已經上線的參數量普遍在千億級以上;而科研院校大模型的參數量在千億級及以下。從大模型應用方向看,大部分企業前期以內部應用為主,后續主要向B端企業拓展服務,預計少數企業將在C端市場形成規模。目前,百度文心大模型、華為盤古大模型、中國科學院紫東太初大模型均在B端垂類市場積累了標桿應用案例,騰訊混元大模型、阿里通義大模型則更多聚焦公司自身業務。而在C端市場應用方面,百度文心一言、阿里通義千問、騰訊混元助手三類大模型最有可能向此方向拓展,但目前只有百度文心一言大模型正在進行友好客戶測試,阿里通義千問大模型則計劃在今年9月份進行公測,騰訊混元助手大模型則處于計劃開發狀態。3、產業發展趨勢大模型是基于海量多源數據打造的預訓練模型,是對原有算法模型的技術升級和產品迭代,用戶可通過開源或開放API/工具等形式進行模型零樣本/小樣本數據學習,以實現更優的識別、理解、決策、生成效果和更低成本的開發部署方案。大模型的核心作用是突破數據標注的困境,通過學習海量無標注的數據來做預訓練,拓展整體模型前期學習的廣度和深度,以此提升大模型的知識水平,從而低成本、高適應性地賦能大模型在后續下游任務中的應用。在實踐中,預訓練大模型在基于海量數據的自監督學習階段完成了“通識”教育,再借助“預訓練+精調”等模式,在共享參數的情況下,根據具體應用場景的特性,用少量數據進行相應微調,即可高水平完成任務。大模型增強了AI技術的通用性,讓開發者以更低成本、更低門檻,面向場景研發更好的AI模型,助力普惠AI的實現。但目前,基礎大模型距離大規模產業應用并成為產業基座還有很長的一段路要走,不僅需要有與場景深度融合的大模型體系,也需要有支持全流程應用落地的專業工具和平臺,還需要開放的生態來激發創新;三層之間交互賦能,才能形成良性循環的產業智能化生態共同體。我們看到OpenAI在開發GPT大模型的過程中具有相似的思路,在不斷加強大模型本身性能的同時,將GPT打包成產品,對外提供API服務,相關開發者、企業、學術機構以及高校都可以申請使用。開放后,大量開發者利用API開發出了各種各樣的功能,例如翻譯機、網站生成器等;OpenAI則通過用戶獲取了更多的行為數據,形成了對GPT的反哺。由此可見,“模型+工具平臺+生態”三層共建有助于業務的良性循環,也更容易借助長期積累形成競爭壁壘。生態層是基于大模型能力打造共創、共享社區。大模型“預訓練+精調”的新研發范式,讓AI在識別、理解、生成等方面的能力實現突破,帶來深度語義理解、智能交互、內容生成的技術與產品變革動能。打造基于大模型能力的生態,提供能力、工具、服務,連接供需,吸引更多的開發者和企業共創、共享,是釋放大模型潛力的重要路徑。“模型+工具平臺+生態”的模式需要協同優化,拓寬人工智能技術落地的場景覆蓋廣度,加深產業實際應用的深度,共同加速產業智能化,推動人工智能技術賦能千行百業,惠及千家萬戶。“模型+工具平臺+生態”的模式需要協同優化,才能拓寬人工智能技術落地的場景覆蓋廣度,加深產業實際應用的深度,共同加速產業智能化,推動人工智能技術賦能千行百業,惠及千家萬戶。二、互聯網大廠模型1、阿里阿里以“通義大模型+飛天智算平臺+魔塔社區+行業應用”成為大模型全部環節的重要參與者。2019年,阿里達摩院開啟大模型研究。2022年9月,阿里正式發布通義大模型,包括通義M6多模態模型、通義AliceMind自然語言處理模型、通義視覺計算機視覺模型。2022年11月,阿里推出AI開源社區“魔搭”(ModelScope),旨在打造下一代“模型即服務”的共享平臺,整合業界多方模型提供者,為開發者提供預訓練基礎模型和API接口。目前該平臺已有超過300個開源模型,包括阿里自有的通義大模型系列以及瀾舟科技孟子系列模型等外部資源和能力。2023年4月,阿里正式發布了“通義千問”產品,該產品基于10萬億級參數的大模型底座M6-OFA,未來將具有多輪交互及復雜指令理解、可多模態融合、支持外部增強API等多種能力。另外,阿里不僅擁有最多的英偉達A100芯片,還擁有自研芯片含光800、倚天710芯片,共同為人工智能大模型提供算力。1.1模型阿里推出“通義”系列大模型,由統一底座層、通用模型層、行業模型層組成,不僅通用多種任務,又容易落地應用,其中,應用在B端更有優勢。2022年9月2日,阿里推出“通義”系列大模型,核心模型通過“魔搭”社區向全球開發者開源開放,推出“飛天智算平臺”提升AI訓練效率。通義大模型通過打造業界首個AI統一底座并構建大小模型協同的層次化人工智能體系,解決了大模型通用性與易用性仍欠缺的難題。通義大模型由統一底座層、通用模型層、行業模型層組成。其中,統一底座是基于transformer框架,由統一學習范式和模塊化設計理念構成;通用模型層主要包括通義-M6、通義-AliceMind和通義-CV三大模型體系。由于低訓練能耗優勢,通義大模型運行速度加快,例如,M6在相同參數規模下的訓練能耗僅是GPT-3的1%。目前,阿里通義大模型已廣泛用于電商、設計、醫療、法律、金融等領域,助力其降本增效。而在落地應用方面,阿里原有的產品資源導致其在B端更有優勢。阿里巴巴于2023年4月7日推出通義千問大語言模型內測。在4月11日的2023阿里云峰會上,阿里巴巴CEO張勇表示阿里巴巴所有產品未來將接入通義千問大模型,進行全面改造,包括天貓、釘釘、高德地圖、淘寶、優酷、盒馬等。阿里將結合200多萬的企業用戶和輻射的2-3億真實活躍用戶資源,把文本作為核心場景鑲嵌到釘釘的三大入口,預計2023Q3推送給部分B端客戶的企業釘。通義-M6屬于多模態模型,覆蓋文本和語音模態,在短時間內高速發展,并實現架構、模態和任務統一。通義-M6(英文全稱是MultiModality-to-MultiModalityMultitaskMega-transformer,6個M,簡稱M6)包括圖文生成,圖文理解,多模態對話,運動預測,運動生成,語音理解,語音生成,多模態檢測和分割。通義-M6已經從2020年6月的3億參數基礎模型逐漸發展到2021年10月的10萬億參數全球最大預訓練模型再到2022年1月的業界首個通用統一大模型M6-OFA。2020年1月,阿里巴巴達摩院啟動中文多模態預訓練模型M6項目,同年6月推出3億參數的基礎模型。2021年1月,模型參數規模到達百億,已經成為世界上最大的中文多模態模型。2021年3月,千億參數模型KDD2021發布,與10B模型相比:①訓練損失減少37%,在許多下游任務實現SOTA結果;②混合精度提亮90%的效率;③僅需32張v100GPU即可完成訓練。2021年5月,具有萬億參數規模的模型正式投入使用,追上了谷歌的發展腳步。2021年10月,M6的參數規模擴展到10萬億,成為當時全球最大的AI預訓練模型。2022年1月,業界首個通用的統一大模型M6-OFA發布。AliceMind是NLP的深度語言模型體系,以通用預訓練語言模型StructBERT為基礎,拓展到超大的領域模型、多語言、多領域、多模態方向,可用于結構化、生成式、知識驅動等應用。AliceMind,取名來自Alibaba'sCollectionofEncoder-decodersfromMinD(MachineIntelligenceofDamo),是阿里達摩院機器智能技術實驗室傾力打造的具有領先性和系統化的深度語言模型體系。AliceMind的核心應用場景有:文本標簽分類、序列標注、智能中文生成(如商品描述寫作推薦、小說續寫、古詩生成、菜譜生成等)、多模態問答(如VQA,圖片問答)、問答對自動生成等。Alicemind已經服務阿里內部和外部客戶幾百個場景。通義-視覺屬于CV模型,覆蓋圖像,視頻模態。通義-視覺大模型自下往上分為底層統一算法架構、中層通用算法和上層產業應用,由兩個基礎模型構成,能夠實現視頻處理、視覺問答、視覺算數等多種算法,在電商、交通、自動駕駛等領域發揮作用。1.2算力2022年,阿里云推出全棧智能計算解決方案“飛天智算平臺”,并啟動兩座超大規模智算中心,為科研、公共服務和企業機構提供強大的智能計算服務,可將計算資源利用率提高3倍以上,AI訓練效率提升11倍,推理效率提升6倍。飛天智算平臺源于阿里巴巴內部廣泛實踐,也源于廣泛的產業智能實踐。目前,該平臺正在支撐建設兩座超大規模智算中心。張北智算中心建設規模為12EFLOPS(每秒1200億億次浮點運算)AI算力。在云端,張北智算中心支撐AI預訓練大模型、AIEarth、數字人等前沿AI應用,將成為全球最大的智算中心。烏蘭察布智算中心建設規模為3EFLOPS(每秒300億億次浮點運算)AI算力,位于“東數西算”內蒙古樞紐節點,采用自然風冷、AI調溫等綠色技術,實現綠色低碳。智能計算不同于通用型計算,需要海量數據對AI模式進行訓練,算力被損耗在數據遷移、同步等環節,千卡以上規模的算力輸出最低往往僅有40%左右。這導致了智能算力成本高昂,制約了產業發展。阿里云通過體系化的技術創新,改變了智能計算的損耗難題,將千卡并行計算效率提升至90%以上。在網絡技術上:阿里云采用高性能RDMA網絡,實現端對端最低2微秒延遲。在通信技術上:阿里云自研的無阻塞通信技術,讓計算過程中的數據交換速度提升了5倍以上。在存儲技術上:自研的IO加速器讓數據存取實現最高10倍性能提升。在大數據AI開發層:阿里云提供分布式訓練框架,并通過API對分布式策略進行自動組合和調優,將訓練效率提升了11倍以上。一站式AI計算開發服務:阿里云為用戶提供了一站式的通用推理優化工具,對算法模型進行量化、剪枝、稀疏化、蒸餾等操作,將推理效率提升6倍以上。阿里研發出高質量的大模型壓縮技術,快速匹配客戶計算資源。達摩院推出了大模型落地技術S4(Sound、Sparse、Scarce、Scale)框架,就包含了各種微調算法和模型壓縮算法,將稀疏化等技術應用到百億量級的大模型中。基于這一技術,阿里的270億參數語言大模型PLUG在壓縮率達99%的情況下,多項任務的精度損失在1%以內。這意味著百億參數大模型也可能在幾乎不損失精度的情況下進行稀疏化,最終實現單卡運行。另一方面,基于“通用大模型+行業knowhow”的方式迭代模型。通用大模型基于“大一統”技術,預訓練時就已經具備了很強的理解和生成能力,只需再針對特定任務進行簡單微調。即先打造一個基礎大模型,再繼續訓練得到領域模型,最后通過微調構建具體行業任務模型。通義大模型的架構設計將這一過程做得更快且更高效。目前,通過部署超大模型的輕量化及專業模型版本,通義大模型已在超過200個場景中提供服務,實現了2%-10%的應用效果提升。比如,通義大模型在淘寶服飾類搜索場景中實現了以文搜圖的跨模態搜索、在AI輔助審判中司法卷宗的事件抽取、文書分類等場景任務中實現3~5%的應用效果提升、在開放域人機對話領域通過建立初步具備“知識、情感以及個性、記憶”的中文開放域對話大模型實現了主動對話、廣泛話題、緊跟熱點等對話體驗。1.3平臺2022年11月,阿里巴巴達摩院與中國計算機學會開源發展委員會共同推出人工智能模型開源社區“魔搭”(ModelScope),首批合作方還包括瀾舟科技、智譜AI、深勢科技、中國科學技術大學等多家科研機構,旨在打造下一代開源的模型即服務共享平臺,致力降低AI應用門檻。ModelScopeLibrary為模型貢獻者提供了必要的分層API,以便將來自CV、NLP、語音、多模態以及科學計算的模型集成到ModelScope生態系統中。所有這些不同模型的實現都以一種簡單統一訪問的方式進行封裝,用戶只需幾行代碼即可完成模型推理、微調和評估。同時,靈活的模塊化設計使得在必要時也可以自定義模型訓練推理過程中的不同組件。除了包含各種模型的實現之外,ModelScopeLibrary還支持與ModelScope后端服務進行必要的交互,特別是與Model-Hub和Dataset-Hub的交互。這種交互促進了模型和數據集的管理在后臺無縫執行,包括模型數據集查詢、版本控制、緩存管理等。當前,魔搭社區收錄模型共775個,其中中文模型約300個,主要通過大模型幫助開發者提取、抽象知識,通過下游調優,將下游目標精確化,從而快速形成針對行業的解決模型,解決實際應用問題。1.4應用通義千問將陸續接入阿里巴巴生態的所有商業應用中,如企業通訊、智能語音助手、電子商務、搜索、導航、娛樂等,從而進一步提升用戶體驗。憑借其中英雙語能力,通義千問將首先部署于阿里巴巴的數碼協同辦公和應用開發平臺釘釘,以及物聯網智能家居終端機天貓精靈上。通義千問賦能釘釘:讓職場溝通更高效。例如,釘釘將能夠總結會議紀要、將會議對話生成文字會議記錄、撰寫電子郵件,以及僅用簡單輸入就可創建業務策劃或推廣方案初稿。用戶還可以透過上傳一張構思草圖的圖像,轉瞬間就能在釘釘上生成小程序。通義千問賦能天貓精靈:與中國用戶更活潑生動地對話。例如,天貓精靈將能夠為兒童創作和講故事、提供健康食譜和旅行建議,或推薦健身背景音樂等。從應用的角度,在傳統APP中,因為各業務邏輯上的不同,比如淘寶與餓了么,飛豬與高德打車,APP間很難整合,強行整合反而會帶來產品使用復雜度大幅增加,用戶體驗下降。但如果統一接入到通義千問中,參考智能座艙的語音助手,其更強的理解能力將使得交互邏輯變得非常簡單,用戶可以像詢問生活助手一樣詢問通義千問來完成業務交互,不再需要學習操作邏輯,阿里生態中的家庭終端入口將實現統一。圖像理解和“文生圖(text-to-image)”等多模態能力也將很快添加到通義千問模型中,為用戶提供更具吸引力的AI功能。阿里云智能首席技術官周靖人表示:“語言大模型支持下的生成式AI正迎來全新的發展階段。在新AI時代,我們憑借可靠的公有云基礎設施和久經驗證的AI能力,為客戶和廣大社會創造價值。我們正見證AI發展的新范式,云和AI模型在其中發揮至關重要的作用。我們致力于讓這種范式更普惠,希望以此促進各行各業的數智化轉型,助力提高企業生產力,擴展專業知識和能力,并通過創新釋放更大的機遇。”通義千問基于阿里巴巴自研的“通義”預訓練模型框架,其統一底座包括“文生圖”、“文生短視頻”等AI模型。去年,阿里云推出開源“模型即服務”(Model-as-a-Service)平臺“魔搭”(ModelScope),開放了數以百計AI模型,包括面向全球開發者和研究人員的通義“文生圖”模型。目前“魔搭”小區擁有超過100萬活躍用戶,提供800多個模型,模型總下載量超1600萬次。2、百度百度是國內領先布局AI領域的科技大廠,也是我國最早發布知識增強大語言模型產品的企業,其在AI領域累計投入研發總額超過千億元,專利數量連續五年居全國第一。2010年,百度成立了人工智能自然語言處理部,是中國最早布局AI的企業之一。2012年,百度的AI戰略已經初步成型,陸續成立了深度學習研究院IDL、人工智能實驗室。2014年,百度開始涉足智能駕駛領域,先后推出了深度語音系統、百度大腦、度秘、Apollo自動駕駛平臺等技術體系,涉及自然語言處理、機器翻譯、語音、視覺、機器學習、深度學習、知識圖譜等核心技術。2016年9月,百度在百度世界大會上正式對外開放集視覺、語音、自然語言處理、知識圖譜、深度學習等技術于一體的百度大腦,并且每隔一段時間就會進行迭代,合作伙伴可以直接調用百度AI的核心能力。同年,百度主導的深度學習框架PaddlePaddle(飛槳)上線,涵蓋了深度學習核心訓練和推理框架、基礎模型庫、端到端開發套件和豐富的工具組件,填補了中國開源深度學習框架的空白。2017年開始,百度就開始整合人工智能體系,在2019年下半的一次架構調整后,王海峰開始統管AIG、ACG和TG三塊業務,百度AI的打法也進一步清晰,云計算被定義為智能基礎設施的底座,同時將人工智能和底層技術能力灌輸到底座中,進而成為賦能各行各業的“動力工廠”。2020年,百度智能云確立了“以云計算為基礎,以人工智能為抓手,聚焦重要賽道”的新戰略,選擇智慧城市、智慧金融、智慧醫療、智能制造、智慧能源等為重要賽道,并屢屢簽下數億級別的訂單。2021年初,百度再次夯實了自身的人工智能戰略,從“AI+云”的整合過渡到云智一體的新階段。2022年底,百度智能云推出了全棧自研的AI基礎設施“百度AI大底座”,其包括“芯片–框架–模型”三層技術棧,在各個層面都擁有關鍵自研技術和領先產品,分別對應昆侖芯、飛槳(PaddlePaddle)、文心大模型。百度AI大底座對各層的技術棧進行了全棧融合、系統優化,完成了云和智的技術一體化建設,可以實現對大模型訓練的端到端優化和加速。2.1模型文心大模型架構分為“基礎+任務+行業”三級模型。基礎大模型聚焦技術方向的技術挑戰、通用性、泛化性探索;任務大模型深入理解任務特性,構建預訓練算法、訓練數據集,打造緊貼任務的模型能力;行業大模型深度融合行業數據與知識特性,構建更適配行業的模型底座。基礎大模型支撐任務與行業大模型的建設,任務和行業大模型結合真實場景與數據反哺基礎大模型優化。目前,文心大模型已經建設了36個大模型,其中基礎大模型包含:NLP(自然語言處理)大模型、CV(計算機視覺)大模型、跨模態大模型,任務大模型包含對話、搜索、信息抽取、生物計算等多個典型任務,行業大模型包含與來自8個行業的頭部企業或機構共建的11個行業大模型。2.1.1文心NLP大模型文心NLP大模型發展歷程有三條主線,1)是文心ERNIE,百度發布了文心ERNIE3.0以及文心·ERNIE3.0Titan模型,并且在SuperGLUE和GLUE都超過了人類排名第一的水平,以及基于層次化多任務學習的文心ERNIE3.0Zeus。同時為了進一步降低落地門檻,出現了效率高、泛化能力強的輕量級大模型,比如文心ERNIE3.0Tiny。2)對話生成大模型文心PLATO的發布,對話的流暢性得到了很大提升。3)文心ERNIE在跨模態、跨語言以及長文檔、圖模型等方面獲得了非常好的發展,在各種榜單尤其是視覺語言相關的榜單上獲得第一百,比如文心ERNIE-ViLG2.0,該模型可以生成語義更相關、質量更高的圖片。文心一言整合了過往關鍵技術,在文心知識增強大模型ERNIE及對話大模型PLATO的基礎上研發,基于飛槳深度學習平臺訓練和部署,其關鍵技術包括,有監督精調、人類反饋的強化學習、提示、知識增強、檢索增強和對話增強。前三項是這類大語言模型都會采用的技術,在ERNIE和PLATO模型中已經有應用和積累,文心一言中又進行了進一步強化和打磨,做到了更懂中文、更懂中國文化、更懂中國的使用場景;后三項則是百度已有技術優勢的再創新。ERNIE3.0系列模型(ERNIE3.0、ERNIE3.0Titan、ERNIE3.0Zeus)有四大特點:從大規模知識圖譜和海量無結構數據中學習,突破異構數據統一表達的瓶頸問題。同時輸入大規模圖譜和相應無標注、無結構化的文本,通過文本的Mask,能夠推理這個知識圖譜里的關系,從而使這個模型具有知識推理能力。融合了自編碼和自回歸的結構,使模型既可以做語言理解,也可以做語言生成。在做語言理解時,模型擁有上下文相關的信息,從而做語言理解。在生成的時候,由于模型只看到了上文,所以只能基于自回歸的方式學習。因此,在一個框架中同時能夠擁有語言理解和語言生成兩種能力非常重要。基于持續學習框架,從不同任務中持續學習。不斷從不同的數據和知識上學習,而不斷地構建新任務,比如文本分類任務、問答任務、完形填空任務等。大模型從不同任務中持續學習,使能力得到持續提升,擁有更多知識。為了進一步學習特定任務的相關知識,ERNIE3.0Zeus提出了層次化提示(Prompt)學習技術。在數據構造時通過層次化的TextPrompt庫將百余種不同的任務統一組織成自然語言的形式,和海量無監督文本以及百度知識圖譜聯合學習。此外訓練過程引入了層次化的SoftPrompt建模了不同任務之間的共性與特性,進一步提升了模型對于不同下游任務的建模能力。此外,通過持續學習對百余種不同形式的任務數據,實現了任務知識增強,顯著提升了模型的零樣本/小樣本學習能力。PLATO(TowardsBuildinganOpen-DomainChatbotviaCurriculumLearning)是文心一言的另一項關鍵技術,主要作用是多輪對話,其發展經歷了三個階段。1)2019年10月,百度首次發布了PLATO對話模型,其是全球首個大規模變量對話模型,刷新開放領域對話效果。2)2020年7月,發布PLATO-2,其是基于課程學習的對話生成模型,進一步刷新了開放領域對話效果。2020年10月,PLATO-2斬獲全球對話技術競賽DSTC-9五項冠軍。3)2021年9月,發布PLATO-XL,其是首個百億參數中英對話預訓練生成模型。PLATO在預訓練模型之上,對對話能力進行增強,讓對話具有人格屬性,包括人設穩定性、知識增強、跨模態對話、情感撫慰、主動對話、長期記憶等。同時,PLATO也已應用到百度的各個產品線,比如:小度聊天,百度推出的虛擬人對話,領域對話。同時,百度也通過UNIT平臺,對外輸出對話技術。2019年,百度首次發布了PLATO對話模型,首次創新性的提出了“隱變量”的概念。開放型對話具有一對多的特點,用戶輸入query后,系統可以有多種多樣的回復。每個回復有不同的性質,比如,輸入“我得健身了,不能放縱了”。可以給用戶建議、詢問、質詢、質疑等類型的回復。除了這種關系外,還會有對話背后的場景信息,這會導致開放型對話一對多的關系,這會導致模型學習很困難。如果針對一個輸入,有特定的輸出,模型的學習會相對簡單。但當模型的輸出不確定,甚至有多種多樣的輸出,這就會導致模型學習復雜。針對這一問題,我們提出隱變量建模輸入和輸出的映射信息。它不是一個顯式的建模,而是一個隱式建模輸入和每一個輸出的對應關系。這就會讓原來的輸入和輸出一對多的關系,轉化為一對一的關系。通過在輸入增加softtoken的方式,讓transformer建立輸入和輸出之間的關系。Transformer不是獨立的編碼器和解碼器的方式,我們選擇了使用編碼器和解碼器共享參數的方式來實現即unifiedtransformer。預訓練分為兩個階段,先根據輸入和輸出預測隱變量的分布,然后從分布中采樣隱變量,將其加入輸入中再去學習根據隱變量和輸入預測回答的能力。2021年,百度推出PLATO-XL,將模型的規模推進至110億,模型有72層。同時引入了roleembedding的特征來感知角色信息。在對話上文中,既有用戶的輸入,也有系統的輸入,使用roleembedding來區分用戶和系統的角色。在原有transformer模型三個特征,token、sentencetype、position的基礎上,模型新增了roleembedding的信息,能讓模型更好的掌控角色。2.1.2文心CV大模型文心CV大模型基于領先的視覺技術,利用海量的圖像、視頻等數據,為企業和開發者提供強大的視覺基礎模型,以及一整套視覺任務定制與應用能力。百度文心發布了VIMER系列的CV大模型,視覺自監督預訓練大模型VIMER-CAE創新性地提出“在隱含的編碼表征空間完成掩碼預測任務”的預訓練框架,在圖像分類、目標檢測、語義分割等經典下游任務上刷新SOTA結果。在此之上,多任務學習模型VIMER-UFO2.0可抽取輕量級小模型,兼顧大模型效果和小模型推理性能,單模型覆蓋20多個CV基礎任務,在28個公開測試集上效果刷新SOTA。端到端文檔OCR表征學習預訓練模型VIMER-StrucTexT2.0解決了訓練數據匱乏和傳統OCR+NLP鏈路過長導致的模型表達能力不足、優化效率偏低等問題,能夠廣泛應用于各行各業行的文檔、卡證、票據等圖像文字識別和結構化理解。VIMER-CAE基于自監督圖像掩碼建模原理,創新性地提出“在隱含的編碼表征空間完成掩碼預測任務”的預訓練框架,對編碼模塊和解碼模塊進行分離,通過編碼模塊對輸入的圖像塊進行特征表達,并利用隱式上下文回歸和解碼模塊對輸入圖像的掩碼塊進行特征表達恢復,在圖像掩碼建模問題上提高了預訓練模型的圖像表征能力。基于VIMER-CAE的預訓練模型在下游各類圖像任務上取得了明顯的效果提升,其中在目標檢測、實例分割、語義分割等任務的指標上達到最優水平。VIMER-UFO2.0技術方案的主要內容包括:1)AllinOne——行業最大170億參數視覺多任務模型,覆蓋人臉、人體、車輛、商品、食物細粒度分類等20+CV基礎任務,單模型28個公開測試集效果SOTA;2)OneforAll——首創針對視覺多任務的超網絡與訓練方案,支持各類任務、各類硬件的靈活部署,解決大模型參數量大,推理性能差的問題。針對大模型的開發和部署問題,VIMER-UFO給出了OneforAll的解決方案,通過引入超網絡的概念,超網絡由眾多稀疏的子網絡構成,每個子網絡是超網絡中的一條路徑,將不同參數量、不同任務功能和不同精度的模型訓練過程變為訓練一個超網絡模型。訓練完成的VIMER-UFOOneforAll超網絡大模型即可針對不同的任務和設備低成本生成相應的可即插即用的小模型,實現OneforAllTasks和OneforAllChips的能力。VIMER-UFO2.0單個模型一套參數,在不進行下游fine-tuning的情況下,在28個主流的CV公開數據集上取得了SOTA的結果。同時,盡管VIMER-UFO2.0大模型參數量達到了170億,得益于Task-MoE稀疏結構,每個任務推理時只需激活部分參數,計算量相當于6億參數模型規模,加速比接近30倍。VIMER-StrucTexT2.0是端到端文檔OCR表征學習預訓練模型,首次創新性地提出“單模態圖像輸入、多模態表征學習”預訓練框架,僅通過單一文檔圖像的輸入,就能讓模型充分捕獲語義和結構信息。經過大規模文檔圖像數據充分學習后的預訓練模型,顯著提高文檔理解全景應用任務效果,包括文檔圖像分類、文檔版式分析、表格結構解析、文檔OCR、端到端信息抽取等。VIMER-StrucTexT2.0同時解決了訓練數據匱乏和傳統OCR+NLP鏈路過長導致的模型表達能力不足、優化效率偏低等問題,能夠廣泛應用于各行各業行文檔、卡證、票據等圖像文字識別和結構化理解。VIMER-UMS(UnifiedMulti-SourcePre-trainingforProduct),是百度基于海量的互聯網商品圖文信息提出的多源信息統一建模的商品圖文表征預訓練模型,也是行業首個統一視覺單模態與多源圖文模態表征的商品多模態預訓練模型。針對圖文多模態建模中模態信息殘缺問題,通過構建視覺特征與多源圖文對比的多任務學習框架,實現統一圖文表征預訓練同時覆蓋商品視覺單模態、多模態識別與檢索任務,可以顯著改善商品視覺檢索和商品多模態檢索體驗。VIMER-UMS基于端到端Transformer訓練方式,通過視覺編碼、文本編碼、融合編碼、搜索查詢編碼,提供多源商品信息的統一表達結構。由于現有主流多模態預訓練方法依靠語言作為弱監督關聯信號,視覺表征能力存在退化現象。為了解決該問題,VIMER-UMS通過建立視覺與多源圖文對比多任務預訓練,實現視覺特征、圖文特征的統一增強表征。2.1.3文心跨模態大模型文心·跨模態大模型基于知識增強的跨模態語義理解關鍵技術,可實現跨模態檢索、圖文生成、圖片文檔的信息抽取等應用的快速搭建,落實產業智能化轉型的AI助力。ERNIE-ViL是業界首個融合場景圖知識的多模態預訓練模型。ERNIE-ViL將場景圖知識融入到視覺-語言模型的預訓練過程,學習場景語義的聯合表示,顯著增強了跨模態的語義理解能力。ERNIE-ViL還在包括視覺常識推理、視覺問答、引用表達式理解、跨模態圖像檢索、跨模態文本檢索等5項典型多模態任務中刷新了世界最好效果。并在多模態領域權威榜單視覺常識推理任務(VCR)上登頂榜首。基于文本中解析出的場景圖,ERNIE-ViL提出了三個多模態場景圖預測任務:物體預測,隨機選取圖中的一部分物體,然后對其在句子中對應的詞進行掩碼和預測;屬性預測,對于場景圖中的屬性-物體組合,隨機選取一部分詞對其中屬性詞進行掩碼和預測;關系預測,對于場景圖中的物體-關系-物體三元組,對其中的關系詞進行掩碼和預測。ERNIE-ViL在場景圖里加入知識,通過它的文字信息去構建場景圖,使得模型能夠理解圖中細粒度的語義。舉例而言,下圖中有6個人,但只有5個人運動員,因為其中一個是裁判,模型要能依據運動場景進行判斷,才能給出正確答案。文心ERNIE-ViLG2.0采用基于知識增強算法的混合降噪專家建模,是全球首個知識增強的AI作畫大模型,也是目前全球參數規模最大的AI作畫大模型,在文本生成圖像公開權威評測集MS-COCO和人工盲評上均超越了StableDiffusion、DALL-E2等模型,取得了當前該領域的世界最好效果,并在語義可控性、圖像清晰度、中國文化理解等方面展現出了顯著優勢。文心ERNIE-ViLG2.0通過視覺、語言等多源知識指引擴散模型學習,強化文圖生成擴散模型對于語義的精確理解,以提升生成圖像的可控性和語義一致性。同時,ERNIE-ViLG2.0首次引入基于時間步的混合降噪專家模型來提升模型建模能力,讓模型在不同的生成階段選擇不同的“降噪專家”網絡,從而實現更加細致的降噪任務建模,提升生成圖像的質量。2.2算力百度早在2011年就開始布局AI芯片領域,并逐步建立AI技術的全棧布局,拓展了全面的AI應用場景。同時,擁有數億用戶規模的產品百度搜索,以及服務各個行業的百度智能云等。同時,百度依托昆侖芯科技前身為百度智能芯片及架構部,昆侖芯是百度自主研發的云端通用AI芯片,目前,昆侖芯1、2代已實現量產,并達到數萬片規模部署。昆侖芯3代將于2024年初量產。依托深厚技術沉淀,昆侖芯科技核心團隊于2017年發布100%自研、面向通用AI計算的芯片核心架構昆侖芯XPU,并從AI落地的實際需求出發,按照復雜前沿的人工智能場景需求來迭代架構。2018年至今,昆侖芯云端AI芯片已經迭代兩代,并實現數萬片的規模落地。其中,昆侖芯1代已經在百度搜索引擎、小度等業務中部署超過兩萬片,昆侖芯2代也于2021年8月實現量產,并已在互聯網、智慧工業、智慧城市、智算中心、智慧交通、科研等領域實現規模化部署,服務來自千行百業的不同客戶。針對大模型,昆侖芯持續打磨部署優化方案,領跑產業落地。昆侖芯已將大模型的Transformer相關優化技術沉淀為重要基建,優化后的性能比原有方案提升5倍以上,壓縮顯存30%以上。以文生圖大模型為例,昆侖芯已跑通一條端到端優化、規模落地之路。AI繪畫模型的推理算力及顯存需求隨圖像分辨率增大而指數級增加,同時,圖像生成需要循環采樣數十次,產業落地動輒需要高昂成本的部署集群,嚴重阻礙了AIGC模型大規模商業化落地。2022年第四季度,昆侖芯聯合客戶,基于飛槳PaddlePaddle發起了端到端聯合優化項目。在2-3周內,項目組快速完成端到端優化,最終實現輸入文本后2秒出圖的優化效果,性能提升近8倍。目前,昆侖芯AI加速卡R200已在該客戶的大模型場景完成規模部署,性能數據全面超越同系列主流推理卡,基于昆侖芯AI加速卡R200高效運算與推理能力,綜合優化方案,在dpm-25steps算法下,利用昆侖芯AI加速卡R200,生成1024*1024圖像時的推理速度為10.89iters/s,相比同能力的主流推理卡快20%;昆侖芯AI加速卡R200擁有32GGDDR6顯存,為大規模參數提供更大的存儲容量、更高帶寬的內存訪問、更穩定的性能,生成更高分辨率的圖片,為用戶提供高性價比服務。2.3平臺百度飛槳是我國首個自主研發的產業級深度學習開源開放平臺,飛槳在平臺功能上具備豐富的產業級模型庫、端到端開發套件、工具組件,以及零門檻AI開發平臺EasyDL和全功能AI開發平臺BML、學習與實訓社區AIStudio,高效支持深度學習模型開發、訓練、部署等全流程,降低AI技術應用門檻;在生態上,飛槳推動構建了全方位的生態體系,包括開發者生態、教育生態、企業生態、硬件生態,通過生態共享共創加速產學研用協同創新發展。飛槳官方精選產業算法新增100多個,累計超過600個,覆蓋計算機視覺(PaddleCV)、自然語言處理(PaddleNLP)、推薦(PaddleRec)、語音(PaddleSpeech)四大應用領域,超過95%的用戶使用模型庫。包含經過產業實踐長期打磨的主流模型,42個精度與性能平衡的產業級PP系列特色模型,以及文心系列大模型。飛槳硬件生態持續繁榮,包括Intel、NVIDIA、Arm等諸多芯片廠商紛紛開展對飛槳的支持,并主動在開源社區為飛槳貢獻代碼。飛槳還與飛騰、海光、鯤鵬、龍芯、申威等CPU進行深入融合適配,并結合麒麟、統信、普華操作系統,以及昆侖芯、海光、寒武紀、瑞芯微、算能、高通、Graphcore、Ambarella等AI芯片深度融合,與浪潮、中科曙光等服務器廠商合作形成軟硬一體的全棧AI基礎設施。當前已經適配飛槳的芯片或IP廠商超過40家,處于業界領先地位。2022年5月,飛槳聯合硬件生態伙伴發布“硬件生態共創計劃”,在聯合研發、資源共享、聯合授權、培訓賦能等多個維度全面合作。2022年11月,飛槳“硬件生態共創計劃”成員已經從13家增加至28家。飛槳平臺服務規模快速滲透,技術能力創新卓著。截至2022年11月,飛槳已凝聚國內規模最大的開發者群體(535萬)、服務20萬企事業單位,基于飛槳平臺創造出67萬個AI模型,超越TensorFlow和PyTorch成為國內服務規模最為廣泛的框架工具,不斷夯實AI工業大生產的基礎,有力推動了我國實體經濟的高質量發展。百度飛槳從2016年經歷多年積累、沉淀、探索后,創新成果已經逐步涌現。飛槳PaddleClas、PaddleDetection、PaddleGAN、PaddleOCR、PaddleSpeech等開發套件發布后多次登頂PaperswithCode和Github趨勢榜單,引起業界高度關注。此外,針對國內市場需求特點,飛槳提供了大量經過真實應用場景有效驗證的高精度、便捷部署的官方模型庫,相關算法及API更加強調對中文情境的支持優化,能夠廣泛支持國產硬件平臺,技術能力優勢逐步凸顯,相較于TensorFlow和PyTorch成為更滿足國內技術應用需求的開發框架。2.4應用百度文心大模型積極拓展內外部應用,目前面向公眾和企業用戶同時進行開放測試。內部應用層面,文心大模型已經率先應用于百度搜索、信息流、智能駕駛、百度地圖、小度智能屏等內部重要產品上。百度在5月25日的移動生態大會上展示了全新的AI搜索體系。1)極致滿足:搜索結果不再是簡單的文本段落,而是多模態的,包括相關的圖片和視頻,省去了用戶的瀏覽和總結時間。對于那些相對簡單但沒有現成答案的問題,AI可以展示邏輯推理和計算能力,直接給出可用的結果。對于開放的多答案問題,百度AI搜索可以整合多個符合要求的答案,并列出引用和選擇依據,滿足用戶需求。此外,搜索引擎還能自動定位到視頻中相關內容的位置,方便用戶查看。根據介紹,現在百度搜索每天有70%的問答需求能在首條搜索結果中得到滿足,這一比例在半年前只有40%,這種改進進一步提升了需求,現在每天有超過3000萬次的新增問答需求。2)AI伙伴:除了提供豐富準確的搜索結果,百度還提出了全能的"AI伙伴",使人們能夠以最直接的方式獲取人工智能的能力。通過AI伙伴,人們可以使用自然語言或語音作為輸入,獲得準確詳細的搜索結果。AI伙伴不僅會在生成答案時標出重點并列出引用鏈接,還能調用其他工具和服務完成任務,并接受進一步追問或指正。AI伙伴還可以根據用戶意圖生成圖片、進行文案寫作,在不同任務中扮演具體的角色,如旅行時可以充當導游,寫作業時可以充當老師。3)AIBOT:以往人們對搜索引擎結果的準確性有所顧慮,因為無論AI算法有多準確,始終只是概率統計的結果,并不能代表專家意見。為解決這個問題,百度推出了全新的AIBOT。類似于ChatGPT的插件,AIBOT通過與第三方技術提供商的合作,使搜索可以自動接入特定能力。目前亮相的AIBOT覆蓋了創作、商業、機構、服務和品牌等多個領域,它們可以利用專業領域知識直接回答用戶的問題。百度文心圍繞大模型產業應用的不同研發環節,面向各階段不同技術、業務背景的開發者或用戶,打造系列工具平臺與場景化產品。大模型套件:百度文心推出新一代預訓練范式的NLP算法定制開發工具集ERNIEKit,面向NLP工程師,提供全流程大模型開發與部署工具集,端到端、全方位發揮大模型效能。包括數據標注與處理、大模型精調、大模型壓縮、高性能部署、場景化工具五大模塊能力;AI開發平臺:百度AI開發以雙平臺模式驅動,面向應用開發者或業務專家提供零門檻AI開放平臺EasyDL,面向AI算法開發者提供全功能AI開發平臺BML。EasyDL使用百度文心NLP、CV、跨模態大模型作為訓練基座,利用少量數據即可獲得理想的模型效果,具有零門檻、高精度、低成本數據、超靈活部署四大核心優勢。BML深度融合文心大模型,提供Notebook建模、預置模型調參、可視化建模、模型產線建模、Pipeline建模、實驗管理等功能,兼具性能和性價比;3、騰訊騰訊構建了“太極機器學習平臺+混元大模型”,同時騰訊啟動了“混元助手”知識增強大語言模型項目。2016年,騰訊成立了AILab實驗室。2022年4月,騰訊對外披露了混元大模型,涉及自然語言處理、計算機視覺、多模態等多個領域。騰訊自研的太極機器學習平臺為混元大模型提供算力,可支持10TB級模型訓練、TB級模型推理計算能力等。騰訊AILab是騰訊的企業級AI實驗室,于2016年4月在深圳成立,目前有100多位頂尖研究科學家及300多位應用工程師。2017年公司提出了“MakeAIEverywhere”的戰略愿景,和“基礎研究—場景共建—能力開放”的三層AI戰略架構。作為衡量機構研究實力的重要標準,成立四年多來,騰訊AILab的基礎研究成果已覆蓋CVPR、ACL、ICML、NIPS及NatureCommunications等國際頂級AI學術會議或期刊,發表論文超過460篇,位居國內企業前列。截止2020年3月,騰訊擁有AI全球專利超過6500個,中國專利超過5000個。3.1模型2022年4月,騰訊首次披露了混元AI大模型研發進展,先后在MSR-VTT、MSVD、LSMDC、DiDeMo和ActivityNet五大最具權威的跨模態視頻檢索數據集榜單中取得第一名,實現跨模態檢索領域的大滿貫。當月,騰訊混元AI大模型又在中文語言理解評測基準CLUE分類榜中取得第一名,分數突破了80.000分,接近人類語言理解能力,刷新該榜單歷史記錄。這是混元AI大模型在斬獲跨模態檢索榜單大滿貫后,取得的又一突破性進展,展現了該模型在自然語言處理上的實力。2022年5月,騰訊混元AI大模型在CLUE總排行榜、閱讀理解、大規模知識圖譜三個榜單同時登頂,一舉打破三項紀錄。據了解,CLUE總榜由分類任務和閱讀理解任務構成。騰訊混元AI大模型在一個月內先后實現分類任務、閱讀理解雙佳績,最終以84.730的成績取得總榜第一。之后混元AI大模型又在多模態理解領域國際權威榜單VCR(VisualCommonsenseReasoning,視覺常識推理)中登頂,兩個單項成績和總成績均位列第一。這是繼在跨模態檢索領域實現大滿貫、CLUE自然語言理解分類榜及CLUE總榜登頂后,混元AI大模型的又一重大突破,展現了其在多模態理解領域的強大實力。3.2算力騰訊發布大模型算力集群HCC大幅提速模型訓練。大模型進入萬億參數時代,單體服務器提供的算力有限,需要將大量服務器相連,協同優化單機算力、網絡架構和存儲性能,打造大規模、分布式的高性能計算集群。以新一代集群為標志,基于自研芯片、星星海自研服務器和分布式云操作系統遨馳,騰訊云正通過軟硬一體的方式,打造面向AIGC的高性能智算網絡,持續加速全社會云上創新。2023年4月14日,騰訊云發布新一代HCC高性能計算集群,其采用最新一代星星海自研服務器,搭載NVIDIAH800TensorCoreGPU,并基于自研網絡、存儲架構,帶來3.2T超高互聯帶寬TB級吞吐能力和千萬級IOPS。實測結果顯示新一代集群算力性能較前代提升3倍。2022年10月,騰訊完成首個萬億參數的AI大模型——混元NLP大模型訓練。在同等數據集下,將訓練時間由50天縮短到11天。如果基于新一代集群,訓練時間將進一步縮短至4天。服務器單機性能是集群算力的基礎,新一代集群的單GPU卡在不同精度下,支持輸出最高1979TFlops的算力。針對大模型場景,星星海自研服務器采用6U超高密度設計,相較行業可支持的上架密度提高30%;利用并行計算理念,通過CPU和GPU節點的一體化設計,將單點算力性能提升至更高。此外,新一代集群集成了騰訊云自研的TACO訓練加速引擎,對網絡協議、通信策略、AI框架、模型編譯進行大量系統級優化,大幅節約訓練調優和算力成本。騰訊太極機器學習平臺自研的訓練框架AngelPTM,也已通過騰訊云TACO提供服務,幫助企業加速大模型落地。依托分布式云原生的治理能力,騰訊云智算平臺提供16EFLOPS的浮點算力,規模業界領先。通過騰訊云的大模型能力和工具箱,企業可結合產業場景數據進行精調訓練,提升生產效率、快速創建和部署AI應用。3.3平臺騰訊自研搭建了業界一流的太極機器學習平臺,致力于讓用戶更加聚焦業務AI問題解決和應用,一站式的解決算法工程師在AI應用過程中特征處理,模型訓練,模型服務等工程問題。結合對用戶的習慣理解和功能沉淀,太極在產品層提供數據/特征工程,模型訓練,模型服務三塊。閉環了用戶離線訓練到在線服務的應用,包含了不同場景下的數據訪問訴求,不同訓練模型的訴求,在線服務可靠性的訴求。算法框架&組件層提供了機器學習、深度學習核心組件。可支持10TB級模型訓練、TB級模型推理和分鐘級模型發布上線,擴展集群規模則可支持更大的模型訓練和推理,為實際業務提供大模型的情況下,同時具有很高的性能,達到行業領先水平。太極機器學習平臺采用了分布式參數服務器架構,其是業界第一梯隊企業們公認的最佳選擇。這種架構的特點是,存儲模型參數和執行模型計算,這兩種任務在分別的服務器上運行,增加更多服務器就可以支持更大、計算需求更高的模型。太極機器學習平臺中的參數服務器系統AngelPS也是騰訊自研的成果,現在不僅可以承載10TB級模型的訓練,對多維特征融合、復雜模型結構等更高級、更前瞻性的功能也有優秀支持。同時太極機器學習平臺還具備超大模型在線推理服務的能力。推理計算方面,不僅支持常規的CPU計算,還支持復雜模型的GPU計算加速;存儲上,根據在線推理模型大小,自適應選擇小模型本地內存加載和大模型AngelPS遠程查詢的部署策略;在線服務運營上,平臺具備多級容災能力,臟模型秒級回滾能力,以及完備的系統和業務運行實時指標監控和報警系統。太極AngelPTM的設計目標是依托太極機器學習平臺,為NLP、CV和多模態、AICG等多類預訓練任務提供一站式服務。其主要由高性能訓練框架、通用加速組件和基礎模型倉庫組成。太極AngelPTM主要有三大部分:1)高性能訓練框架:包含大模型訓練框架ZeRO-Cache,高性能MOE組件,以及3D并行和自動流水并行策略;2)通用加速組件:包含可減少顯存并提高精度的異構Adafactor優化器,可穩定MOE半精度訓練loss的Z_loss組件,選擇性重計算組件和降低通信代價的PowerSGD組件;3)基礎模型倉庫:包含T5、BERT、GPT以及Transformer等基礎模型。3.4應用騰訊AILab的AI技術也廣泛應用在微信、QQ和騰訊覓影等上百款產品。行業應用上,實驗室研發出的圍棋AI「絕藝」屢獲國際賽事冠軍,是科技賦能國粹文化的代表;與王者榮耀研發的策略協作型AI「絕悟」達到職業水平,代表國際水準的研究能力。布局前沿多模態數字人技術,探索數字內容生成的新可能。實驗室支持的國家級AI+醫療標桿產品「騰訊覓影」與「騰訊醫典」也不斷取得技術突破,「騰訊覓影」從醫療影像延伸到輔助診療等功能,截止2018年10月,項目已落地100多家全國三甲醫院,服務患者近40萬人。2020年,實驗室發布自研智能顯微鏡及AI藥物發現平臺「云深智藥」,并初步探索AI+農業智慧溫室項目。AI+生命健康:在醫療領域,騰訊AILab與北京協和醫院共同發布了具有完全自主知識產權的便攜式智能化手術導航系統,實現高精度、便攜式、低成本等特點,就像給臨床醫生的手術配上了GPS,輔助醫生精準定位隱藏在腦組織中的病變。該系統在協和神經外科已成功開展了50余例臨床試驗,涉及腦出血、垂體腺瘤、膠質瘤、腦膜瘤、顱咽管瘤等多種疾病,臨床初步應用取得成功。騰訊AILab還與邁瑞共同研發了全自動外周血細胞形態學分析儀,并完成了創新醫療器械特別審查申請公示,正式進入國家藥品監督管理局創新通道,成為國內體外診斷行業首個進入該程序的AI類產品。該分析儀通過創新性的形態學檢測方案,以優異的指標及效率,實現白血病等高發惡性腫瘤的早期篩查輔助臨床診斷。AI+內容:騰訊AILab持續探索AI與人協同合作的內容生成技術,此前相繼發布了文本理解系統TexSmart、交互翻譯系統TranSmart等,并且創新性地探索了AI在游戲電競、直播等領域的應用。智能寫作方面,22年4月,發布智能寫作助手「文涌(Effidit)」,用技術助力文思泉涌。初版本融合了知識抽取、文本理解、文本生成、大規模預訓練模型、經典語言模型、搜索等多項技術積累,提供多維度文本補全,多樣化文本潤色等核心功能,及例句推薦、文本糾錯、云輸入法、學術專業版等完整的輔助寫作能力。22年12月,文涌2.0版本發布,新版本增加了風格化文本續寫等眾多功能,共包含「文本補全」、「智能糾錯」、「文本潤色」、「超級網典」四個模塊,其中「文本補全」和「超級網典」旨在幫助寫作者在創作時開闊思路、提供彈藥,而「智能糾錯」和「文本潤色」則是重在提升創作后的文本水平和質量。部分功能目前已接入搜狗輸入法PC端(「智能汪仔」)和QQ瀏覽器移動端。4、字節相對于阿里、百度、騰訊均已經推出大模型及布局,字節目前仍未公布內部架構、產品體系及大模型的最新進展。字節的AI布局可以追溯到2016年成立的字節AILAB的成立,AILab對自身的定位是作為公司內部的研究所和技術服務商,為平臺輸出海量內容提供AI技術支持。AILab最初成立的時候聚集了馬維英、李航、李磊等大牛,此后馬維英離開團隊回到學界,目前阿里M6大模型的前帶頭人楊紅霞已加入字節AILab(人工智能實驗室),參與語言生成大模型的研發。字節目前大模型仍處于發展階段,現以旗下云平臺火山引擎在算力、平臺和生態端布局為主。大模型團隊由字節搜索部門牽頭,搜索業務部門、AILab和AML(應用機器學習)團隊均調任部分人馬支援,目前團隊規模在40人左右,圖片大模型團隊由產品研發與工程架構部下屬的智能創作團隊牽頭;團隊負責人間接和直接匯報對象,則均為TikTok產品技術負責人朱文佳。根據調研情況,字節目前在仍在做模型調優,計劃23年6-9月達到3.5模型相當的水平,9月之后語言模型可以同步做發布和多模態模型訓練,語言模型發布至少要到9月之后。后面會基于當前的語言模型,做多模態的模型,多模態相對來說難度會更大,至少要等到24年3-4月。4.1模型字節在AI方面的積累主要集中在機器翻譯、智能語音、視頻圖像和多模態四個領領域。字節跳動的研究成果包括非自回歸模型DA-Transformer、端到端語音到文本翻譯模型ConST、多顆粒度的視覺語言模型X-VLM、圖片和文本統一生成模型DaVinci等。在機器翻譯方面,字節旗下火山翻譯團隊2022年在SC22、ACL2022、ICML2022等頂會發表學術成果10余篇,受邀參加了英偉達GTC2022全球AI開發者大會等知名技術論壇,申報翻譯技術專利15項,榮獲中國專利優秀獎在WMT2022的非洲語向任務上奪得桂冠。目前,火山翻譯提供9大領域翻譯,其中包括但不限于人工智能、互聯網行業生物醫療、科學技術、金融財經,支持共114個語向的翻譯,其中包括伊博語、亞美尼亞語等小語種。其中,字節和清華聯合發布了DA-Transformer,DA-Transformer在機器翻譯上首次達到了Transformer同樣的精度,而處理的速度提高了7~14倍。DA-Transformer不僅可以用于機器翻譯,而且可以用于任意的序列到序列任務。在多模態方面,2022年3月,字節發布的text2image模型實現了文生圖能力,實驗數據顯示,其效果比VQGAN-CLIP要真實,尤其是泛化能力還比不少用大量文本-圖像數據對訓練出來的模型要好很多。2022年5月,字節跳動AILabResearch團隊提出了X-VLM,首次提出學習多粒度的視覺和語言對齊。實驗證明,這種預訓練方法十分高效,模型規模無需很大,預訓練數據無需很多,僅216M參數量的X-VLM就能在廣泛的多模態任務上獲得了十分優秀的表現,例如:圖像文本檢索、基于圖片的問答或推理、視覺定位、圖片描述生成。目前,X-VLM在字節跳動的真實應用場景上超過了業界常用的多個模型,完成了上線,服務于如今日頭條等業務。相關論文已被ICML2022接收。4.2算力2023年4月18日,火山引擎在春季火山引擎FORCE原動力大會上正式發布自研DPU等系列云產品,并正式推出智能推薦-高速訓練引擎,支持100GB至10TB以上超大模型的高效訓練,采取軟硬一體優化設計等,讓面向推薦場景的高速訓練更快,成本更低。火山引擎智能推薦-高速訓練引擎具備軟硬一體、細粒度算子優化、分布式訓練和推理三大特點,1)軟硬一體化:針對關鍵場景的超大模型,火山引擎智能推薦-高速訓練引擎提供了全GPU方案,可以支持100GB-10TB的超大模型的高速訓練,綜合ROI是CPU的5倍;覆蓋更多場景的模型,提供了GPU+CPU混訓方案,綜合ROI是CPU的2倍;2)細粒度算子優化:針對搜索、推薦和營銷場景,優化細粒度算子,使得在模型推理的過程中有更好的性能表現。在訓練時,通過算子融合并精細調優,性能提升20%;在推理時,通過算子優化,性能提升40%;3)分布式訓練和推理:智能推薦-高速訓練引擎為了保障系統的穩定性,支持訓練和推理的全方位容錯,當某一個節點故障時,可以快速恢復;支持分布式推理,包括多分片、多副本,從而保證線上服務的高可用。4.3平臺2022年7月,火山引擎正式發布機器學習平臺,達到0碎片的極致性能和優秀的開發體驗,火山引擎機器學習平臺解決方案已在金融、零售、能源、教育等行業落地,幫助更多企業不斷縮短智能業務研發周期,提高模型上線效率和GPU使用率,并依靠定制化的智能模型實現業務增長。火山引擎在數據管理、資源管理、流程和模型三大領域具備核心優勢。1)在數據管理場景下,火山引擎機器學習平臺可通過結構化、非結構化數據庫、數據協同標注與版本化管理、多租戶安全等,保護企業數據資產,為機器學習、深度學習開發助力;2)在資源管理場景下,機器學習平臺可通過GPU、CPU調度,模型分布式訓練,資源動態分配,彈性線上推理服務等,提供機器學習模型開發所需要的算力。無論是在字節跳動內部還是在外部客戶,該平臺都已實現萬級GPU算力資源的池化管理、調度和共享;3)對于流程和模型管理,機器學習平臺提供DevOps能力。不同于一般業務,機器學習應用的發布包含了所有規則和處理邏輯,在應用上線后,由于需要周期性地進行更新、優化迭代,模型本身對外部數據有強依賴,這使得整個DevOps更復雜。火山引擎機器學習平臺構建了DevOps流水線,實現從數據處理、模型訓練、模型評估、模型發布的持續集成,提升端對端業務上線效率。平臺也支持通過超參數自動搜索、多模型自動比對與評估、模型版本化管理、線上模型運維等,降低模型開發和維護門檻。4.4應用火山引擎的AI場景產品主要包括智能創作、智能體驗以及智能營銷,目前已服務數百家客戶,分別在視頻創作、互動創作、直播短視頻構建中推動客戶業務增長。在內容視頻化和互動趣味化的大趨勢下,火山引擎創作與體驗場景提供了從算法到平臺的全域解決方案,在AI底層算法的支持下,通過全品類的正版素材和特色化的創作工具,快速完成視頻、特效、虛擬形象、XR等創新內容。不管是企業用戶還是個人用戶,人人都可擁有創作比較專業的短視頻的能力。智能創作云是火山引擎發布的面向企業的創作AI產品,智能創作云包括眾多AI創作工具,比如圖文轉視頻能力,用戶只需輸入文字即可生成視頻,AI通過理解文字內容,搭配適合的圖片、音樂和轉場等,快速生成一支專業的視頻;比如視頻模板,剪同款功能就是把優質視頻內容抽象成腳本,用戶只要會打開攝像頭拍攝,就有了專業拍、剪視頻的能力,極大降低了創作門檻,保障了內容生產的質量。字節旗下云服務平臺云服務平臺火山引擎提供有關音視頻的智能美化特效。智能美化特效基于自主研發的特效SDK,提供多項圖像渲染和算法,提供貼紙特效/美化濾鏡/人像智能/計算機視覺基礎檢測識別等功能,用于拍照工具、直播、短視頻、在線教育、體感游戲等場景。目前,智能美化特效擁有超過200個自研算法、具備小于2ms的人臉檢測速度,提供超過90萬個抖音同款特效貼紙和濾鏡。此外,字節在內部的相關產品持續引入AI。2022年5月,字節推出海綿樂隊App,海綿樂隊是一款手機端的便攜式音頻創作工具,在實現傳統的錄音、效果器同時,引入大量A
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 東莞高中數學試題及答案
- 商業領域的心理隱私泄露風險及防范
- 技術推動的當代文學生態變革
- 小檗胺衍生物與化合物TPN171 - G的合成工藝及應用前景探究
- 小學生幾何直觀學習現狀、問題與提升路徑研究
- 企業文化如何適應并引領數字化轉型趨勢
- 2025年中學教師資格考試《綜合素質》教育理念辨析題及答案匯編
- 商業零售空間規劃的數字化解決方案
- 職場溝通能力提升計劃
- 倉庫風險管理的有效措施計劃
- 低年級繪本閱讀校本課程開發與實施方案
- 風電基礎勞務分包合同(2篇)
- 絲綢之路完整版本
- 中國食物成分表
- 靜脈留置針護理課件
- 2023年貴州省黔西南州赴省內外高校專項人才引進考試試題及答案
- 二型呼吸衰竭的課件
- 2024-2030年中國AGV機器人行業發展分析及投資風險與戰略研究報告
- 2024年重慶市中考生物試卷真題(含標準答案及解析)
- 肌鈣蛋白-I(cTNI)標準操作規程
- 110kV變電站專項電氣試驗及調試方案
評論
0/150
提交評論