




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
計算機|證券研究報告—行業深度2023年12月28日智能體專題報告之一具身智能由智能體(AIagent)和物理實體(本體)組成。智能體是自主完成設定目標的代理,能迭代學習與環境互動。智能體形式包括自動駕駛汽車、機器人等。大模型AI算力投建之下,智能體有望成為消化算力的殺手級應用。智能體賦能之下,人工代碼量能大幅減少并對未預先編程的場景進行操作。從產業落地進程看,我們判斷未來1-3年內自動駕駛有望先行落地,搭載智能體的機器人則在5年期具備商業化看點。建議關注整體解決方案和產業鏈廠商投資機會。相關研究報告《口岸信息化行業點評》20231108《數據要素行業事件點評》20231025《自動駕駛行業事件點評》20231024中銀國際證券股份有限公司具備證券投資咨詢業務資格計算機證券分析師:楊思睿證券投資咨詢業務證書編號:S13005180聯系人:劉桐彤tongtong.liu@智能體能夠以自動駕駛汽車、機器人等多種形式落地,或將誕生生成式AI殺手級應用。智能體(AIAgents)是一個可以通過行動能力自主完成設定的目標的代理,能夠不斷迭代學習與環境相互適應。智能體與“相關研究報告《口岸信息化行業點評》20231108《數據要素行業事件點評》20231025《自動駕駛行業事件點評》20231024中銀國際證券股份有限公司具備證券投資咨詢業務資格計算機證券分析師:楊思睿證券投資咨詢業務證書編號:S13005180聯系人:劉桐彤tongtong.liu@智能體與物理實體結合,能夠大大減少人工代碼量并且對未預先編程的場景進行操作。區別于CV、NLP等傳統深度學習模型,與“本體”耦合后的智能體不依靠被動數據投喂,能夠實現1)擺脫傳統機器人依靠工程師代碼進行控制的模式,以微軟《ChatGPTforRobotics:DesignPrinciplesandModelAbilities》為例,操控者只需準備好機器人底層的函數庫,并將任務目標告訴chatgpt,chatgpt即可自動完成代碼并指揮具身智能機器人行動。(2)對從未見過的對象或場景執行操作任務。依托大模型的涌現能力,具身的智能體能夠從原始訓練數據中自動學習并發現新的、更高層次的特征和模式,在僅僅依靠網絡數據知識的情況下就可以完成沒有預先編程的新場景。n自動駕駛:端到端大模型存在平臺級DriveGPT機會。自動駕駛落地進程快于機器人,未來1-3年內L4、L5級別的自動駕駛技術有望實現,而搭載智能體的機器人則會在未來5-10年出現。特斯拉FSDV12采用端到端訓練方法,與Chatgpt訓練模式類似。相比V11,V12代碼量減少99%。同時,端到端相比分模塊的技術范式具備更高性能范式。當端到端系統達到與現有技術水平相當的時間點時,將會快速超越傳統技術棧。通過對比特斯拉FSD和Waymo,我們認為端到端技術奇點已經臨近。n機器人:生成式大模型有望加快底層通用平臺建設,打造RobotGPT需要大模型模擬數據支持。目前針對機器人的不同技能仍需要不同的大模型。而機器人底層平臺發展相對落后的原因在于多數研究者仍使用相對落后的ResNet18深度學習架構,而非在生成模型的巨大數據集上進行模型訓練。但隨著大模型的迅速發展,RobotGPT進程有望加快。打造RobotGPT的關鍵是解決數據稀缺問題。相比真實數據,仿真數據同樣具備完善的數據分布,涵蓋commoncase和cornercase,并且能夠以較低成本獲取數據,從而規避數據隱私和安全問題。n建議關注自動駕駛平臺級機會以及工業仿真環節。自動駕駛層面,端到端技術奇點臨近,建議關注商湯科技(UniAD端到端大模型);機器人層面,仿真數據有望加快RobotGPT迭代進程,建議關注中科曙光(新一代工業仿真云平臺“力源·久宇”)、索辰科技(CAE仿真軟件)、軟通動力(iSSMeta數字仿真推演平臺)。評級面臨的主要風險n技術迭代不及預期;數據采集不及預期。2023年12月28日智能體專題報告之一2智能體:自動駕駛汽車與人形機器人的智能大腦 4智能體不依靠被動數據投喂,具備自主學習的能力 4智能體帶動機器人實現升維進階 5藍海市場前景廣闊,產業端加速落地 8藍海市場前景廣闊,5年市場規模復合增速有望超50% 8產業端加速落地,GEMINI有望接入機器人 9端到端大模型與數據模擬兩大方向值得關注 端到端大模型有望打造自動駕駛領域DRIVEGPT 機器人:海量數據模擬需求有望釋放 2023年12月28日智能體專題報告之一3 4 4 5 5 6 6 7 8 9 9 10 12 13 14 14 15 16 16 17 17 18 18 19 20 20 21 21 22 222023年12月28日智能體專題報告之一4智能體:自動駕駛汽車與人形機器人的智能大腦智能體是自主完成設定的目標的代理,能夠不斷迭代學習以與環境相互適應。根據MoPaaS創始人和CEO魯為民博士在《大語言模型時代的智能體(I):什么是智能體?》一文中的定義,智能體(AIAgents或Agents)是一個可以通過行動能力自主完成設定的目標的代理。智能體具備一些類似人的智能能力和行為,比如學習、推理、決策和執行能力。智能體具備感知、觀測、決策和執行四大模塊,通過反饋來感知環境及其動態變化,并將行動策略反饋作用于環境,以實現不斷迭代學習與環境相互適應。圖表1.智能體不斷迭代學習以與環境相互適應資料來源:魯為民《大語言模型時代的智能體(I):什么是智能體?》,自動駕駛汽車、人形機器人都可成為智能體的載體。根據智元機器人CTO、首席架構師稚暉君的定義,智能體與“本體”耦合后,即形成具備物理實體的、且能夠在復雜環境中執行任務的智能系統。其中本體作為實際的執行者(通常是具有物理實體的機器人),在物理或者虛擬世界進行感知和任務執行;而智能體則承擔智能核心的作用,負責感知、理解、決策、控制等工作。盧策吾教授在機器之心AI科技年會上發表的《具身智能是通往AGI值得探索的方向》中提到,智能體通過感知器和執行器與環境進行交互,能夠實現獲取信息、理解問題等功能,并根據環境的變化做出相應的決策和行動。根據選擇的不同具身方法,智能體能夠以機器人、自動駕駛汽車等多種形式表現。圖表2.智能體和物理實體耦合后形成具身智能資料來源:盧策吾《具身智能是通往AGI值得探索的方向》,中銀證券2023年12月28日智能體專題報告之一5智能體相比傳統深度學習模型具備自主學習的能力。CV、NLP等傳統深度學習模型主要通過第三視角以互聯網圖像、視頻或文本等數據集進行學習,其訓練主要依靠被動數據投喂。而具身的智能體以第一視角進行感知,并與環境交互,不依靠被動數據投喂,具備主動學習的能力以及較強的泛化性。1963年,麻省理工學院教授理查德·赫爾德通過對比實驗發現:當貓的腳被綁住放進盒子里時,即使其能正常觀察環境,但并不能發育出正常的視覺能力;而另一只可以自由行走的貓在完全相同的環境下,則發育出了正常的視覺能力,因而他認為只有“具身”的訓練,才能真正學習與理解外部的環境與信息。圖表3.具身的智能體以第一視角進行學習資料來源:盧策吾《具身智能是通往AGI值得探索的方向》,中銀證券由智能體賦能的機器人以任務完成為導向,相比傳統機器人大大減少了編程的需要。傳統模式下,機器人以程序執行為導向,通常需要經過任務定義、將任務分解為動作、編寫程序以及執行任務等流程。工程師需要構建高低級指令代碼,并且隨時更改代碼以修正機器人行動,整個過程耗時長且成本昂貴。而搭載智能體的機器人以任務目標為導向,不僅僅是機械地完成程序。具身的智能體可以根據環境變化,對行動細節進行實時修正,其自主學習能力能夠消除在特定條件下為特定任務反復編程的需要。圖表4.搭載智能體后的機器人無需進行大量編程資料來源:Microsoft《ChatGPTforRobotics:DesignPrinciplesandModelAbiliti2023年12月28日智能體專題報告之一6微軟在《ChatGPTforRobotics:DesignPrinciplesandModelAbilities》中提出,大語言模型(LLM)能給機器人提供常識,非工程師也可對機器人進行控制。操控者只需準備好機器人底層的函數庫,并對其進行描述。將任務目標告訴ChatGPT后,ChatGPT即可自動完成代碼并應用在具身智能機器人上。以居家機器人為例,設計者只需寫出機器人進行物品定位、移動到某一位置、抓取物體以及做飯的函數庫,然后告知ChatGPT相應函數的作用以及要到達的目標,ChatGPT就會自動寫出相應代碼。圖表5.ChatGPT可自動完成代碼并應用在具身智能機器人上資料來源:Microsoft《ChatGPTforRobotics:DesignPrinciplesandModelAbiliti搭載智能體后機器人涌現能力顯著提升,可完成沒有預先編程的新場景。7月谷歌DeepMind推出機andImagemodel(PaLI-X)和PathwaysLanguagemodelEmbodied(PaLM-E)為支柱,通過輸入圖像生成一系列自然語言文本的標記。RT-2可用于執行視覺問答、圖像字幕或對象識別等任務。RT-2展現了較好的涌現能力,即從原始訓練數據中自動學習并發現新的、更高層次的特征和模式的能力。圖表6.搭載智能體后機器人涌現能力顯著提升中銀證券在谷歌具身智能試驗中,機器人對從未見過的對象或場景上執行操作任務,在僅依據網絡數據知識的情況下,機器人可完成諸如“拿起即將從桌上掉下來的袋子”或“將香蕉移動到2加1的和”等任務。實驗結果顯示,RT-2對于未曾見過的情景的平均成功率達60%,相比RT-1提升了3倍以上。2023年12月28日智能體專題報告之一7圖表7.RT-2涌現成功率達60%2023年12月28日智能體專題報告之一8藍海市場前景廣闊,產業端加速落地具身智能體市場空間廣闊,5年市場規模CAGR有望超50%。智能體目前仍處于發展初期階段,其與機器人、自動駕駛、智能傳感器和智能設備、增強現實(AR)和虛擬現實(VR)等多個行業相關,市場空間廣闊。以人形機器人市場規模進行參考,據MarketsandMarkets測算,到2028年全球人形機器人市場規模將達到138億美元,復合增長率預計為50.2%。圖表8.2023年-2028年人型機器人市場規模及增速資料來源:MarketsandMarkets,中銀證券政策密集催化。2023年以來,多項智能體相關政策陸續發布。5月,北京市發布《北京市促進通用人工智能創新發展的若干措施(2023-2025年征求意見稿)》,提出要探索具身智能、通用智能體和類腦智能等通用人工智能新路徑。同期,上海發布《上海市推動制造業高質量發展三年行動計劃(2023-2025年)》,提出要瞄準人工智能技術前沿,建設國際算法創新基地,加快人形機器人創新發展。湖北、深圳、廣東等省市紛紛加快布局,促進產業高速發展。政策帶動下,智能體產業進入快車道。2023年12月28日智能體專題報告之一9圖表9.智能體相關政策(2023-2024)》資料來源:上海市、北京市、深圳市、廣東省、湖北省人民政府,成都市經濟和信息化局,中銀證券英偉達推出多模態具身智能系統NvidiaVIMA。英偉達創始人黃仁勛在ITFWorld2023半導體大會上表示,AI下一個浪潮將是“具身智能”,具身智能將開啟新的應用和市場,如智能機器人、智能醫療、智能教育等。目前英偉達已推出多模態具身智能系統NvidiaVIMA,并在NVIDIAAI上運行。NvidiaVIMA能在視覺文本提示的指導下,執行復雜任務,如在虛擬環境中搭建樂高積木、在真實環境中操作機器人手臂等。圖表10.VIMA在NVIDIAAI上運行資料來源:英偉達官網,中銀證券2023年12月28日智能體專題報告之一10谷歌打造“通才”AI模型PaLM-E。3月,谷歌聯合柏林工業大學團隊發布PaLM-E(PathwaysLanguageModelwithEmbodied參數量高達5620億。PaLM-E是PaLM-540B語言模型與ViT-22B視覺Transformer模型的結合,它基于谷歌現有的“PaLM”大語言模型(類似于ChatGPT背后的技術)。谷歌通過添加感官信息和機器人控制,使PaLM“具身化”。PaLM-E可以連續觀察圖像信息或傳感器數據,并將它們編碼為一系列與語言標記大小相同的向量,使得模型以與處理語言相同的方式“理解”感官信息。同時,PaLM-E還借鑒了谷歌之前在ViT-22B視覺Transformer模型上的工作。ViT-22B接受過各類視覺任務的訓練,如圖像分類、對象檢測、語義分割和圖像字幕。作為多模態具身視覺語言模型(VLM),PaLM-E不僅可以理解圖像,還能理解、生成語言,還可以執行各種復雜的機器人指令而無需重新訓練。當被要求執行“把抽屜里的薯片拿給我”的任務的時候,PaLM-E首先對機器人相機的數據進行分析,而非對場景進行預處理(消除了人類預處理或注釋數據的需要以實現更自主的機器人控制。隨后PaLM-E引導機器人從廚房取出薯片袋,當研究人員從機器人拿走薯片后,機器人仍然能找到薯片并再次抓取它們。圖表11.搭載PaLM-E的機器人無需對場景進行預處理Gemini具備強泛化能力,有望成為機器人智能體。12月6日,谷歌原生多模態大模型Gemini發布。Gemini可泛化并無縫理解、操作和組合不同類型的信息,包括文本、代碼、音頻、圖像和視頻。它包括三種量級:能力最強的GeminiUltra,適用于多任務的GeminiPro以及適用于特定任務和端側的GeminiNano。其中Ultra版可用于大型數據中心等,屬于處理高復雜度任務的模型;Pro版則用于各種擴展任務,屬于日常使用模型,目前已搭載于谷歌的對話機器人Bard中;Nano版則是應用于智能手機等移動設備終端上的模型。與BERT等模型相比,Gemini具有更多的參數和更深的網絡結構,此外Gemini還采用了更先進的訓練方法,例如知識蒸餾和自監督學習等,模型泛化能力顯著提升。在GLUE和SQuAD等多項自然語言處理基測試中,Gemini分別取得了94.1%和93.3%的準確率。谷歌人工智能高管哈薩比斯在接受雜志Wired采訪時表示,谷歌DeepMind已經在研究如何將Gemini與機器人技術結合起來,與世界進行物理互動。2023年12月28日智能體專題報告之一11圖表12.Gemini性能顯著提升資料來源:DanHendrycks官方Twitter,中銀證券阿里千問大模型有望接入工業機器人。在第六屆數字中國建設峰會上,阿里巴巴董事會主席兼CEO、阿里云智能集團CEO張勇透露:阿里云工程師正在實驗將千問大模型接入工業機器人。接入千問大模型后,在釘釘對話框輸入人類語言,操作者即可遠程指揮機器人工作。通過釘釘對話框向機器人發送“我渴了,找點東西喝吧。”的指令后,千問大模型在后臺自動編寫代碼發給機器人。機器人對周邊環境進行識別,在找到水后,自動完成移動、抓取、配送等一系列動作,并順利遞送給工程師。圖表13.千問大模型遠程指揮機器人工作資料來源:阿里云《阿里云物聯網工程師正在實驗將千問大模型接入工業機器人》,中銀證券國內首款開源鴻蒙機器人發布。12月5日,國內首款可跳躍的開源鴻蒙人形機器人在深圳發布,該款機器人人形機器人KUAVO(夸父)由樂聚自主研發,重量約45kg,全身自由度26個,步速最高可達4.6km/h,快速連續跳躍高度超過20cm,是國內首款可跳躍、可適應多地形行走、并且可實現量產的開源鴻蒙人形機器人。目前,夸父已進入全面量產階段,并在科研教育和特種作業領域率先實現商業化落地。樂聚機器人也有望因此成為國內首家實現大機器人量產交付單位。2023年12月28日智能體專題報告之一12圖表14.國內首款開源鴻蒙機器人發布2023年12月28日智能體專題報告之一13端到端大模型與數據模擬兩大方向值得關注自動駕駛智能體短期內有望快速落地,機器人智能體接力打開中長期想象空間。根據北京智源人工智能研究院院長、北大多媒體信息處理國家重點實驗室主任黃鐵軍在2023STIC科技創變者大會上的演講,隨著技術迭代速度加快,1-3年內L4、L5級別的自動駕駛技術有望實現,而搭載智能體的機器人則會在未來5-10年出現,并對制造業進行顛覆與替代,同時進入普通家庭ToC場景。我們認為短期內,自動駕駛有望成為具身智能體的首個落地方向,端到端大模型技術有望快速超越現有范式,奇點已經臨近;中長期生成式模型的快速迭代有望加快RobotRPT進程,產業存在大量模擬數據需求。特斯拉FSDV12采用端到端訓練方法,與ChatGPT訓練模式類似。ChatGPT采用端到端的訓練方法,其關鍵基礎是生成式大規模語言模型。ChatGPT以生成式的自監督學習為基礎,在大量的未標注文本數據上訓練模型,使其能夠學習語言的普遍規律和語言結構。而特斯拉FSDV12同樣采用端到端訓練方法,與ChatGPT技術路徑一致。在常規自動駕駛系統開發中,探測、跟蹤、靜態環境建圖、高精地圖定位等子模塊分別由不同的團隊分擔,各團隊負責各自模塊的結果輸出,因此各個模塊之間存在明顯的界限和區隔,使得模塊容易存在局部最優,而非全局最優的情況。而端到端的設計則是將各個模塊用可微分的方式連接起來,使任務得到了聯合和全局優化。除此之外,端到端前期不需海量代碼或提前設計規則,只需不斷輸入人類駕駛數據,系統就能不斷更新迭代。圖表15.經典范式和端到端范式之間的差異注:虛線箭頭表示在傳統范式下,每個組件的輸出直接輸入到后續單元;實線箭頭表示端到端模式下,任務從感知輸入到決策模塊后,繼續反向傳播以實現全局優化2023年12月28日智能體專題報告之一14FSDV12神經網絡取代傳統分模塊設計。特斯拉宣布已開始向員工推出完全自動駕駛(FSD)V12版本。特斯拉FSDV12使用全球各地數百萬特斯拉車身視頻作為訓練材料來模仿人類司機的駕駛決策,采用“光子進入,控制輸出(photonin,controlsout)”。目前常見自動駕駛系統多采用分模塊設計,即分為感知、決策、控制三個模塊。車輛通過傳感器感知周遭環境,確定車輛位置、速度、加速度,并根據識別出來的語義進行行駛路線的規劃和橫縱向的決策,最后通過轉向和制動機構控制車輛行駛,各任務內部采用各自的算法模型,感知、決策與控制之間界限明確。而特斯拉將規劃和控制由代碼改成了神經網絡形式,與感知層的神經網絡合并成了一個大網絡,僅利用一套神經網絡就能處理所有輸入信號,并輸出駕駛決策。圖表16.特斯拉FSDv12神經網絡架構資料來源:2022TeslaAIDay視頻,中銀證券FSDV12代碼量相比V11減少99%。相比V11,V12最主要的更新在于其99%決策都是由神經網絡給出,這一更新減少了車機系統對代碼的依賴,使其更加接近人類司機的決策過程。這是特斯拉首次放棄代碼,使用神經網絡進行車輛控制。與V11相比,V11使用超過30萬行代碼,依靠工程師硬核編碼對車輛進行控制。而FSDV12則可通過神經網絡控制轉向、加速和制動。目前,FSDV12的C++代碼只有2000行。圖表17.特斯拉FSDv11神經網絡架構資料來源:2021TeslaAIDay視頻,中銀證券2023年12月28日智能體專題報告之一15具備核心數據積累,影子模式有望支撐神經網絡加速訓練。特斯拉影子模式的運作方式是在有人駕駛狀態下,運行自動駕駛系統和傳感器,系統雖不參與車輛控制,但仍持續進行模擬決策,并把決策與駕駛員行為進行對比。兩者不一致時,系統將場景判定為“極端工況”,進而觸發數據回傳。因而特斯拉的使用用戶越多,收集的數據就越多。圖表18.特斯拉影子模式示意圖資料來源:2019TeslaAutonomyDay視頻,中銀證券大模型的訓練依賴海量數據的提供,提供的數據越多,訓練質量就越優異。在特斯拉2023年股東大會上,馬斯克透露FSD累計行駛里程已經接近2億英里。據LexFriedman發布的數據顯示,截至2020年1月16日,特斯拉的所有汽車行駛里程達到191億英里,其中自動駕駛里程為22億英里。相比之下,同時期Waymo路測里程約為1000萬英里,特斯拉于數據儲備方面具明顯優勢。馬斯克發現,當輸入超過100萬個視頻后,基于神經網絡的自動駕駛系統開始表現良好。目前FSDV12已使用包含1000萬個視頻的數據集。并且特斯拉在全球各地近200萬輛的車隊,每天也會提供約1600億幀視頻用于訓練。特斯拉預計,未來用于訓練的視頻將達到數十億幀。2023年12月28日智能體專題報告之一16圖表19.特斯拉影子模式加速數據采集奇點臨近,端到端系統有望超越現有范式。根據小鵬XPILOT總監PatrickLiu在CVPR2023上的演講,分模塊的方式允許開發人員以最少的努力快速工作,但通常會導致自動駕駛性能上限為80%,而端到端以全局最優為導向,相比傳統分模塊的范式具備更高上限。然而在端到端系統起步初期,需要重復多次才能不斷突破性能天花板。從圖中我們可以看出,當端到端系統達到現有技術水平的時間點后,將會快速超越技術棧。圖表20.端到端系統有望超越現有范式資料來源:PatrickLangechuanLiu'stalkatCVPR23E2EADWorkshop,中銀證券在8月26日馬斯克45分鐘直播試駕中,FSDBetaV12在面對之前從未見過的建筑、道路標志時能夠進行識別,并輕松繞過障礙物。對于同樣未經過編程的環形交叉路口概念,FSDV12順利完成轉彎行駛。只需輸入目的地地址,FSDV12就可自動行駛到達目的地,并將車停到合適的位置。YouTube博主CallasEV將特斯拉FSD與Waymo進行了長距離駕駛對比。從同一地點出發到同一終點,Waymo全程用時54分42秒,而特斯拉的路線用時僅為26分27秒,用時不到Waymo的一半。2023年12月28日智能體專題報告之一17圖表21.特斯拉路線用時僅為Waymo一半資料來源:Youtube頻道CallasEV,中銀證券UniAD成為國內首個端到端自動駕駛大模型。6月21日,全球人工智能和計算機視覺領域頂級國際會議CVPR2023宣布由上海人工智能實驗室、武漢大學及商湯科技聯合發表的論文《以路徑規劃為導向的自動駕駛》(Planning-orientedAutonomousDriving,UniAD)獲最佳論文獎。在UniAD中,研究人員首次將感知、預測和規劃等三大類主任務、六小類子任務(目標檢測、目標跟蹤、場景建圖、軌跡預測、柵格預測和路徑規劃)整合到一個基于Transformer的端到端網絡框架下,實現了全棧關鍵任務駕駛通用模型。在nuScenes真實場景數據集下,UniAD的所有任務均達到領域最佳性能(State-of-the-art,SOTA尤其是預測和規劃效果方面。其中,多目標跟蹤準確率超越SOTA20%,車道線預測準確率提升30%,預測運動位移和規劃的誤差則分別降低38%和28%。圖表22.UniAD網絡架構機器人領域尚未形成底層通用大模型。根據達闥機器人創始人、董事長兼CEO黃曉慶9月20日在2023亞布力智能制造發展論壇上的發言,RobotGPT是智能制造領域需要的各種垂直的、從事各種生產的通用機器人的大腦,可以傳承各種長期積累的工作經驗,且不需要人類編程,只需要人類以自然語言的方式來進行記錄。但當下機器人在不同的技能情況下仍需要不同的大模型,底層通用平臺尚未形成。目前機器人領域主流的具身智能大模型主要包括谷歌PaLM-E、RoboticTransformer以及LM-Nav等,這些大模型各自針對不同細分場景。2023年12月28日智能體專題報告之一18圖表23.主流機器人智能體對比模型架構入RT-2被主要應用于控制場景,具備較+視覺導航模型(VNM)銀證券PaLM-E在規劃方面優勢突出。PaLM-E能夠進行長期推理規劃,抵抗任務期間可能發生的中斷。在處理機器人任務時,PaLM-E獲取到用戶使用自然語言定義的長期任務目標后,會根據當前機器人的狀態和感知信息,生成逐步的低級文本指令,并交由下游控制模塊執行。根據每一步的執行結果及場景的變化,機器人會重新對下一步進行規劃。在谷歌視頻演示中,當研究人員從機器人手中抓取薯片并移動它們時,機器人能夠再次找到薯片并抓取它們。圖表24.PaLM-E在在規劃方面優勢突出RoboticTransformer主要針對控制場景。RoboticTransformer2(RT-2)是視覺語言行動(VLA)模型,它從網絡和機器人數據中學習,并將這些知識轉化為通用指令以控制機器人。RT-2具備較強的思維鏈能力,可以完成多步驟邏輯推理,能夠用復雜文本指令直接操控機械臂,中間不再需要將其轉化成簡單指令,通過自然語言就可得到最終的行動。在面對圖像輸入時,RT-2模型在輸入圖像數據后會首先輸出語言規劃結果,再把語言規劃結果分解成動作,控制機器人完成。RT-2在物流、制造、安保等領域應用廣泛。2023年12月28日智能體專題報告之一19圖表25.RT-2架構LM-Nav主要針對導航場景。LM-Nav主要基于大型語言模型(LLM)、視覺和語言模型(VLM)以及視覺導航模型(VNM)。其中VNM負責根據環境中的觀測值構建拓撲圖,LLM用于提取指令中的地標,VLM對所描述的地標和圖像的聯合概率分布進行推斷。之后系統利用VLM的概率分布和VNM推斷的圖連接性,從環境中檢索出最優指令路徑,并由VNM進行執行。在沒有微調的情況下,LMNav可實現無需對機器人導航數據進行人工注釋。2023年12月28日智能體專題報告之一20圖表26.LM-Nav架構銀證券RobotGPT與ChatGPT技術路徑相似,生成模型有望加快RobotGPT進程。RobotGPT不需人類編程,只需人類用自然語言的方式來進行記錄。根據《RobotGPT:FromChatGPTtoRobotIntelligence》,RobotGPT框架圖思路類似于ChatGPT:ChatGPT的原理可理解為文字-文字的接龍,而RobotGPT原理是文字/語言/各類傳感器接收的信號-動作接龍,兩者皆是通過深度學習和強化學習構建端對端圖表27.RobotGPT架構2023年12月28日智能體專題報告之一21OpenAI領投的人形機器人公司1XTechnologiesAI副總裁EricJang在《我們如何讓機器人更像生成模型?》中提到,機器人相比生成式模型發展相對落后的原因在于大多數研究者仍在使用相對落后的ResNet18深度學習架構,而非在生成模型的巨大的數據集上進行模型訓練。但隨著生成模型的迅速發展,RobotGPT進程有望加快。2018年6月,OpenAI發布GPT-1模型,參數達1.1億。同年11月,GPT-2模型發布,參數提升至15億。2020年5月,GPT-3的beta版本推出,模型參數迅速提升至1750億。隨后大模型發展開始進入到百花齊放階段。2021年1月,谷歌推出SwitchTransformer,參數量達1.6萬億,是史上首個萬億級語言模型;同年12月,谷歌推出了1.2萬億參數的通用稀疏語言模型GLaM。2022年5月,MetaAI發布超大規模語言模型-OPT-175B,是參數超過千億級別的開放模型。2023年12月,谷歌Gemini原生多模態大模型發布,模型分為Ultra、Pro和Nano三個規格,目前GeminiPro模型已整合到GoogleAIStudio和VertexAI中,可供企業在開發中使用。圖表28.2020年以來大模型發展歷程資料來源:RebeccaLi,etal.《CurrentBestPracticesforTrainin生成模型正逐步運用到機器人大模型中。2023年7月,斯坦福大學李飛飛團隊發布VoxPoser系統,將大模型ChatGPT4+VLM,接入至機器人,可在無需額外數據和訓練的情況下,將復雜指令轉化為具體的行動規劃。在給定環境信息和要執行的自然語言指令后,LLM(大語言模型)直接相應內容編寫代碼,并將所生成代碼與VLM(視覺語言模型)進行交互,指導系統生成相應操作指示地圖,即3DValueMap,最后,運動規劃器合成6-DoF動作,整個流程無需對模型進行任何額外的訓練。圖表29.VoxPoser的現實運用場景證券2023年12月28日智能體專題報告之一22打造RobotGPT的關鍵是解決數據稀缺問題。RobotGPT的泛化能力與LLM大模型的贗本數量直接相關。根據《PaLM-E:AnEmbodiedMultimodalLanguageModel》,谷歌PaLM-E62B的LLM相對于8B的LLM體現了更好的out-of-distribution泛化性,LLM數據量的提升顯著增強了RObotGPT泛化性。目前通過大模型的涌現能力和思維鏈能力,可以使部分任務零樣本學習到,但Voxposer機器人還是局限在桌面上進行操作,如果要實現更廣闊空間的擴展,仍需要高質量數據做支撐。圖表30.大模型參數與訓練數據規模呈正相關數據仿真有望成為產業突破關鍵。區別于非具身智能,具身智能需要實際部署到真實環境中,才能夠采集數據,但目前探索真實環境成本高昂且需要海量數據。智元機器人CTO、首席架構師稚暉君在接受媒體甲子光年的采訪中表示,現在LLM的預訓練通常需要web-scale級別的數據,而具身智能的場景更為復雜,數據獲取難度進一步加大。而數據仿真具備完善的數據分布,不僅涵蓋commoncase,同時也涵蓋大量cornercase,尤其是現實中獲取難度極大,獲取代價極高的數據。其數據成本低且可以規避數據隱私和安全問題。根據《Willwerunoutofdata?AnanalysisofthelimitsofscalingdatasetsinMachineLearning》文中預測,2026年文本數據將被訓練完,而圖像數據將在2040年左右耗盡。根據Gartner的預測,2026年模型訓練數據中的50%將由合成數據構成;2030年合成數據的質量將全面超過人類標注的真實數據。數據仿真或將成為產業突破關鍵。圖表31.合成數據將成為人工智能中使用的主要數據形式2023年12月28日智能體專題報告之一23投資建議智能體應用落地:短期自動駕駛有望快速落地,中長期具身智能機器人成長可期。根據北京智源人工智能研究院院長黃鐵軍在2023STIC科技創變者大會上的發言,1-3年內L4、L5級別的自動駕駛技術就能實現,而搭載具身智能的機器人則會在未來5-10年出現。我們認為短期內,自動駕駛有望成為具身智能體的首個落地方向。自動駕駛層面:端到端大模型技術有望快速超越現有范式,奇點已經臨近。UniAd大模型是國內首個端到端自動駕駛大模型,將感知
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 動火作業等級管理制度
- 工程設備安全管理制度
- 學校豪華設備管理制度
- 公司現金安全管理制度
- 數據庫事務處理效率試題及答案
- 小區公園設施管理制度
- 公益中心項目管理制度
- 提高通過率的考試試題及答案技巧
- 數據流分析在數據庫中的應用實例試題及答案
- 四級軟件測試考試內容梳理試題及答案
- 四川大學臨床醫學專業介紹
- 2025年電信工程師考試卷及答案
- 2025年大學英語四六級考試試卷及答案
- 英語系學生學習總結模版
- 2024年蘇州科技大學輔導員考試真題
- 形勢與政策補考2-國開(XJ)-參考資料
- GB/T 26480-2011閥門的檢驗和試驗
- 畢業設計(論文)秸稈粉碎機的設計(含全套圖紙)
- 樁基鋼筋籠吊裝計算書(共16頁)
- 危大工程驗收表-
- 葉輪動平衡試驗報告A
評論
0/150
提交評論