彭厚文-騰訊混元多模態大模型技術實踐_第1頁
彭厚文-騰訊混元多模態大模型技術實踐_第2頁
彭厚文-騰訊混元多模態大模型技術實踐_第3頁
彭厚文-騰訊混元多模態大模型技術實踐_第4頁
彭厚文-騰訊混元多模態大模型技術實踐_第5頁
已閱讀5頁,還剩60頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

彭厚文騰訊混元多模態模型負責人目前專注于多模態基礎模型研發、曾任微軟亞洲研究院主管研究員。在人工智能領域國際期刊和會議如TPAMI、CVPR、NeurIPS等發表學術論文30余篇,擔任PatternRecognition期刊副主編,ACMMultimedia會議領域主席。演講主題:騰訊混元多模態技術實踐混元大模型的“前世今生”:從零自研、持續成長騰訊混元大模型正式發布24Q224Q1混元位居沙利文測評的第一象限24Q3文生文、多模態理解、文生圖均位居33混元多模態發展路線?圖、視頻生文:輸入是圖像和視頻以及文字指令,輸出是對圖像和視頻的內容理解這張圖什么意思?這張圖什么意思?混元多模態大模型-預訓練與模型結構模型結構模型結構?圖片:VisionTransformer(ViT)?視頻:參數復用理解多圖、多視頻幀?視覺-語言(文本)適配器?鏈接視覺-語言模態的“橋梁”?大語言(文本)模型?理解視覺內容和文字的“大腦中樞”預訓練預訓練?多階段預訓練策略從粗到細分門別類構建和優化從粗到細分門別類構建和優化1.分門別類:10大垂類topic覆蓋理解/創作/問答/推理/專業領域等基礎識別知識問答基礎識別知識問答內容創作分析推理多輪對話描述OCR圖表數學代碼2.任務多樣復雜:圖片復雜度x文本問題復雜度?統計類圖表(柱狀圖、折線圖、餅圖、散點圖、表格、散點圖、熱力圖、復雜圖表)?思維類圖表(程序流程圖、數據流程圖、業務流程圖、工作流程圖、架構圖、樹狀圖、思維導圖、錐形、甘特圖等)OCR圖片類型:?自然場景(街景、路標、廣告牌、發票、商標、菜單...)2.難點:數據雜亂、數據敏感(法律風險、用戶隱私)數據預處理數據泛化數據清洗數據使用過濾隱私數據答案改寫糾錯數據篩選數據去重多輪合并過濾隱私數據答案改寫糾錯數據篩選數據去重多輪合并多輪拆分相似檢索效果:日志挖掘提升指令覆蓋豐富度,提升指令理解渲染渲染圖表型財報分析:極端長寬比圖片圖像描述:一圖勝千言圖表型財報分析:極端長寬比圖片圖像描述:一圖勝千言更詳細的描述Q:騰訊上半年情況怎么樣?A:根據圖片中的財務表現摘要,騰訊2024年上半年的經營盈利為103,288百萬元人民幣,每股盈利如下:攤薄每股盈利為9.377人民幣元因此,騰訊2024年上半年的經營盈利為103,288百萬元人民幣,基本每股盈利為9.590人民幣元,攤薄每股盈利為9.377人民幣元。Q:Markdown形式列出騰訊經營資料信息A:現狀:中文超越GPT-4V水平完成情況:6月評測結果與GPT-4o同處第一梯隊,位居國內第一總分:比GPT-4v高15.6分,比國內第2名高5.4分(75.9vs.躍分項能力:OCR,圖像分析推理,圖生文視覺數學,圖像內容創作,多輪對話等5項能力達到國內第一SuperCLUE-V多模態理解榜單(8月)位居國內應用能力應用能力卓越領導者騰訊Hunyuan卓越領導者騰訊Hunyuan-vision競爭梯隊國內大模型國外大模型技術探索者潛力探索者技術探索者[1]Gartner報告預測,到2030年,合成數據在AI模型中的使用將完全超過真實數據[2]除此之外,Epoch指出,自然數據在2026-2030不能滿足LLM訓練需求?指令數據合成與進化n基于MoE架構的多模態大模型技術路線?性能更優:相同訓練成本,MoE性能優于稠?MoEScalingLaw業界公開可參考探索少?訓練穩定性差,專家定義、負載不均衡或專家表征趨同?ScalingLaw:探索數據、參數、學習率(LR)、批量大小(BS)、Expert數量等縮放特性?路由機制:探索DomainRouting、共享專家Top-K路由、補償策略等?效率優化:專家異構、層級異構、線性Attention、混合低精度等?“準確、及時、精細”的獎勵反饋是驅動大模型能力提?精細:過程式獎勵模型(PRM)帶來更大效果提升?關注用戶體驗,避免“高分低能”?Benchmark評測存在Bias,與真實用戶場景不同?評價標準覆蓋模型能力評測,與用戶體驗評測構建短視頻多模態理解框架,理解并提取用戶潛在商業需求與廣告營銷表達核心洞察提取多模態素材提取和理解核心洞察提取多模態素材提取和理解分享XX煙酰胺搓泥寶膏去角質效果商業價值:強混元多模態理解熱死了熱死了,我剛出去一會兒胳膊就曬成構建直播帶貨實時理解流程,識別不同時刻在播商品,及時捕獲用戶商業需求與廣告營銷表達直播間多模態內容提取和理解直播間多模態內容提取和理解商品1商品1:自行車商品2:滑行墊商品2:滑行墊商品3:羽毛球訓練器商品3:羽毛球訓練器騰訊視頻微信搜一搜騰訊視頻?需求:?需求:用大模型來提升復雜問題、代碼、數學、創作等生成類query的AI元寶AI搜索調用量?需求:解決模糊的、口語化、場景化的用戶找片搜索結果合格視頻源文件視頻幀圖基于混元內容審核大模型,信安人工審核提效22%,AMS廣告內容審核漏放率降低20%視頻源文件視頻幀圖審核1S(完整視頻20+min容易漏過騰訊文檔:思維圖表ToB:多模態小程序代碼生成,AI教育小助手?小程序編程場景:小程序教育版AI助手小程序教育版上線AI編程助手,面向師生推廣小程序開發教育,累計650+所試用學校,~200所已認證學校產品創新:支持專業復雜分析的個人助手ChatGPT技術演進展示了大模型在橫向多模態和縱向深度思考兩個維度上的持續創新2023.32024.9橫向:多模態2024.52024.2縱向:深度思考2022.112023.92023.32024.9橫向:多模態2024.52024.2縱向:深度思考2022.112023.9未來探索:往更深刻和更廣度的智能前進廣度理解認知空間全模態大模型拓寬與物理世界交互方式廣度理解認知空間全模態大模型拓寬與物理世界交互方式理解物理世界深度在環境中行動的能力在環境中行動的能力解決奧賽學科難題探索知識邊界29/67未來研究方向:探索智能的廣度各模態神經網絡趨向統一文語言模型隱馬爾科夫模型HMM統計特征神經網絡模型卷積神經網絡CNN統一的神經網Transformers大語言模型未來:未來:全模態過去:單模態?…現在:雙模態現在:雙模態?…定理證明系統AlphaProof生成證明代碼并與證明環境交互幾何求解系統AlphaGeometry2構造輔助條件使用幾何求解器2024.7:谷歌DeepMind2024.7:谷歌DeepMind發布數學大模型,今年IMO競賽中達到人類選手的銀牌水平2024.9:OpenAI發布GPT-o1模型開啟推理算力新ScalingLawAIME數學競賽:從GPT-4oAIME數學競賽:從GPT-4o的13%準確率提升至83%選手水平(金牌門檻359.71)混元進展:?使用自動化定理證明工具,利用自推理和規則合成方式構造高質量數理證明思維鏈數據?混元定理證明器在MiniF2F評測集取得業內領先的準確率?7B小模型也可解決部分學科競賽類問題Atari(2013)?2024.5月開源混元DIT:業界

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論