多模態大模型的實踐與思考_第1頁
多模態大模型的實踐與思考_第2頁
多模態大模型的實踐與思考_第3頁
多模態大模型的實踐與思考_第4頁
多模態大模型的實踐與思考_第5頁
已閱讀5頁,還剩54頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

中國科學院自動化研究所大模型研究中心yousong.zhu@2024.08大模型開啟人工智能新一代技術革命n大模型技術的突破掀起了人工智能的新一輪技術革命,產業需求呈現爆炸式增長,全新的應用場景和應用模式正在迅速涌現。大模型+人形機器人Figure01機器人:通過GPT4大模型加持,機器人可以聽懂人類指令和提問,能對話、能思考、能學習大模型+自動駕駛特斯拉FSDV12:感知-規劃-決策端對端,不需要為減速帶、停車標志或環形路口編寫程序重塑辦公模式程序自動設計AIGC大語言模型快速發展,百花齊放參數量大:從幾十億參數到數千億參數,例如GPT-3模型的參數量高達1750億(與人腦神經元數目一個量級);訓練數據大:數萬億Tokens(alldataininternet);訓練算力大:數千甚至數萬個GPU,耗費幾個月才能完成一次訓練;語言模型任務求解能力的演化過程通用性是大語言模型的顯著特征,在廣泛的下游任務(語言理解、語言生成)中達到甚至超過人類的水平大語言模型給通用人工智能帶來了無限可能ChatGPT系列被稱為是“通用人工智能的火花”GPT4在一系列考試中表現優異GPT4解高等數學題?Expressivity:toflexiblycaptureandrepresentrichinformation?Scalability:toefficientlyconsumelargequantitiesofdata?Multimodality:toconnecttogethervariousmodalitiesanddomains?Memorycapacity:tostorethevastamountofaccumulatedknowledge?Compositionality:togeneralizetonewcontexts,tasksandenvironments人類的學習和交互過程充滿了多模態信息嬰兒階段的早期概念習得過程(fromEmmanuelDupoux)??視覺(圖像/視頻)?聽覺(聲音/?聽覺(聲音/語音/音樂等)?觸覺?嗅覺/味覺?生理信號(心電圖ECG,皮膚電傳導等)?其他(紅外圖像,深得應用和行為方面:心理學醫學聲學視覺語言多媒體機器人學習紫東太初大模型攻關歷程圖文音單獨攻關08年-20年集團式攻關20年1月百億模型21年1月完成千億參數模型調試21年7月全球HC大會發布“紫東太初”21年9月“紫東太初”服務紫東太初2.0平臺22年10月23年6月▲不同場景對應不同小模型一個場景一個模型模型參數量小,泛化性差參數參數bb從0開始b獨立調優b艱難迭代b推倒重來多模態大模型吸收海量知識參數多個場景一個模型參數多個場景一個模型模型參數大,泛化性強算力中心海量弱關聯數據藍色牛仔褲和灰白色長袖襯衫。。紫東太初1.0:首個千億參數圖文音大模型紫東太初突破當前AI技術局限,通過跨模態關聯自監督學習,開拓性地實現了圖像、文字、語音不同模態數據間的統一表示和互相生成,從“一專一能”邁向“多專多能”,形成了完整的智能表示、推理和生成能力。邊上邊上拉坐著邊上穿著穿著上下邊上知識在海邊的一塊巨石上,那里有一個坐著的女人在拉小提琴,穿著淺藍色牛仔褲和灰白色長短袖。文圖音9億弱關聯圖音文數據女人旁邊---------b顯式關系學習---心隱式關系推斷海語義概念邊上邊上拉坐著邊上穿著穿著上下邊上知識在海邊的一塊巨石上,那里有一個坐著的女人在拉小提琴,穿著淺藍色牛仔褲和灰白色長短袖。文圖音9億弱關聯圖音文數據女人旁邊---------b顯式關系學習---心隱式關系推斷海語義概念多模態關聯自監督學習自動獲得100萬級實體概念及關聯關系多模態關聯自監督學習自動獲得100萬級實體概念及關聯關系國產化智能計算中心200P算力紫東太初1.0:首個千億參數圖文音大模型弱關聯多模態數據語義統一表示:支持三種或任兩種模視覺視覺語音文本語音文本紫東太初1.0:一個模型支撐多個任務紫東太初1.0可以一個模型實現圖像識別、語言翻譯、圖像描述、語音合成等50余種功能,并初步具備了人機交互、認知推理、藝術創作等創新能力。例如我們可以以音生圖、可以理解圖像含義。語言語言數據模態多樣化聲紋識別端點檢測語種識別.........語音視覺語言翻譯摘要、續寫、問答...圖像識別語義分割領域應用多樣化一個模型實現50余種功能以文搜圖以音生圖以圖生音紫東太初2.0認知強化:全模態多任務統一生成全模態生成全模態認知增強全模態生成物聯數據全模態認知解碼全模態認知關聯物聯數據全模態認知解碼全模態認知關聯全模態分組編碼全模態分組編碼語言能力科大訊飛、阿里、百川等多家的主流大語言模型的7大基礎能語言能力科大訊飛、阿里、百川等多家的主流大語言模型的7大基礎能力、35個子能力1,紫東太初2.0在七大能力方向均獲得具備競爭力的分數,在語言理解、通用視覺分割模型FastSAM:基于COCO數據集評測AR1000指標和AUC指標2,FastSAM方法性能接近SAM多模態對話模型:使用GPT4/人工進行準確性、豐富度、流利度分數指標評估,紫東太初獲分847.5,高語音能力———注:1)七大基礎能力包括文本生成、語言理解、知識問答、邏輯推理、數學、編程、角色扮演;2)AR1000指標代表在對每個模型,其中ASRSOTA為阿里paraformer模型,在ASRleadboard綜合排名第一;ASVSOTA為End-to-EndDual-BranchNetworkTowardsS語言綜合能力領先AlignBench(CritiqueLLM66模型總分中文推理中文語言推理總分數學計算邏輯推理語言總分基本任務中文理解綜合問答文本寫作角色扮演專業能力 評測網站Url:https://llmbench.ai/align/data紫東太初2.0:三維理解與內容生成33多模態大一統模型:基于Token-based的統一自回歸預測train-[0.079,0.470,0.820,0.717]&trafficli[0.396,0.400,0.408,0.431]&car-[0.730,0.982]&trafficlight-[0.433,00.429]&bus-[0.510,0.542,0.644,0.660].路徑:將定位、檢測、分割等不同粒度任務通過自回歸預測(nexttokenprediction)統一到多模態局部細粒度感知能力,不依賴專家模型和特定結構,減train-[0.079,0.470,0.820,0.717]&trafficli[0.396,0.400,0.408,0.431]&car-[0.730,0.982]&trafficlight-[0.433,00.429]&bus-[0.510,0.542,0.644,0.660].ReportthecoordinatesofReportthecoordinatesofpeople-[0.015,0.485,0.081,0.peopleintheimage.HowmuchshouldItableaccordingtothepriceonthemenu?Accordingtothemenu,thepriceforaMagnabeeris$6.SincetherearetwoMagnabeersonthetablethetotalcostforthebeerswouldbe$12.MLLM背景:現有的多模態大模型視覺局部理解能力弱,如何構建統一的訓練方法:將坐標統一歸一化[0-1]編碼表示,利用原有的語言詞典,采用Stage1-預訓練定位基礎模型:收集COCO、Grounding等開源數據,使用GPT4V構建100余個prompt模板,最終共計構建600萬定位預訓練數據;Stage2-定位指令微調:強化模型對用戶指令的跟隨能力,攻擊構建500K定位指令數據。Code:/jefferyZhan/Griffon視覺Grounding任務超越同期Qwen-VL和蘋果的FERRET-13B模型首個在目標檢測任務上進行評測的模型,并且精度接近相同分辨率下的FasterR-CNN在更復雜的短語定位(PhraseGrounding)任務上也表現優異Griffonv2:視覺-文本雙指代統一大模型?數據:構建千萬級局部定位預訓練數據,包含box、mask、細粒度標簽、區域描述和密集視覺指示數據,并擴充指令微調數據(900K)。?分辨率:全面支持高分辨率強化對細節理解。?視覺-文本指代:融入多種指代信息,圖片+文本,支持REC、REG、detection以及Counting等視覺任務。?分割:持續推進模型對像素級的語義理解,LLM自回歸統一建模。Griffonv2:視覺-文本雙指代統一大模型視覺Grounding任務超越目前最優定位優化模型CogVLM-17B在短語定位(PhraseGrounding)及視覺區域描述任務(REG)性能表現優異首次在目標檢測、開放目標計數任務上精度超越多個目標檢測、目標計數專有模型Griffonv2:視覺-文本雙指代統一大模型首次在目標檢測、開放目標計數任務上精度超越多個目標檢測、目標計數專有模型Griffonv2:視覺-文本雙指代統一大模型文本指代:支持文本、坐標指代對話輸入視覺指代:支持跨圖、截圖指代對話輸入Griffonv2:視覺-文本雙指代統一大模型lREG:輸入坐標框位置,生成局部細粒度描述lREC:輸入描述或詞組,預測對應的坐標框(多個)l目標檢測:輸入類別,產生對應的所有坐標框l目標計數:輸入跨圖或截圖目標,定位相似目標Griffonv2:視覺-文本雙指代統一大模型Griffonv2T-Rex多模態人工智能產業聯合體 紫東.太初100家成員紫東.太初100家成員中科院自動化所iI愛奇藝整合產學研用各方資源,打造多模態人工智能行業應用,探索通用人工智能產業化路徑u基于“紫東太初”開發手語多模態手語對話系統,已在300個電視頻聽障群體持續學習成為難題AI賦能,讓手語學習更簡單、可持續持續豐富手語詞匯庫→推動融合手語國家標準制定→服務聽障認識產品開骨科類器械/耗材管理痛點基于紫東太初大模型,實現數據智能標注、高效模型訓練、模型靈活部署,實現骨科器械/耗材的自動識別和清點,實現智能化、精細化管理通用視覺預訓練模型泛化到高鐵通用視覺預訓練模型泛化到高鐵工業缺陷場景,降低了標注樣本數量,平均精度提升10%--商湯科技基于紫東太初的多模態對話虛擬人通過一帶一路應用在沙特國家博物館沙特王儲參觀了多模態對話虛擬人并高度評價目的:通過學習特定領域的數據,使模型可以理解對應的內容和結構數據集數據集醫療文獻數據醫療知識圖譜臨床試驗數據醫療百科醫療政策新聞數據報告數據電子病例醫患問診指令微調指令微調數據類型:開源數據+業務數據目的:通過強化建立基于范式的習慣表達目的目的:通過強化建立基于范式的習慣表達圍繞業務應用(信息抽取,閱讀理解,總結,問答對抽取等任務)由數智內部專業的醫學經理進行數據標注和校驗互聯網/三方數據互聯網/三方數據醫療垂類大模型醫療垂類大模型大模型(大語言模型和多模態模型)展現出了強大的多任務能力和泛化能力,已成為人工智能研

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論