




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
人形機器人行業分析1.歷史:工業類人形機器人嶄露鋒芒1.1.人形機器人發展的三階段人形機器人的“萌芽階段”(1960-1990)。這一階段的人形機器人特征為初具“人形態”,研發重點著重在機器人的“下肢運動”。1968年,美國的通用電氣公司(R.Smosher)試制了一臺名為“Rig”的操縱型雙足步行機器人機械,同年,日本早稻田大學加藤一郎教授在日本首先展開了雙足機器人的研制工作,并先后推出了WAP-1、WAP-3、WL-5等持續迭代的雙足機器人版本,自此人形機器人產業步入萌芽階段。此外,除了日本在人形機器人研制上做出較大貢獻外,包括英國、蘇聯等國家也紛紛加入機器人的研制上,例如,英國于1970年研制成功的“Witt”型雙足機器人,蘇聯則研制出兩輪雙足行走機器人。而我國在人形機器人的研發起步相對較慢,自1985年始,國內幾所科研院校才陸續開始人形機器人的研發工作,而直到2000年,中國國防科技大學經過多年的努力成果才研制出我國第一臺仿人型機器人“先行者”,哈爾濱工業大學也自1985年研發雙足步行機器人以來,先后推出HJT-I、HJT-II、HJT-III等型號的機器人。人形機器人的“發展階段”(1990-2010)。這一階段的人形機器人特征為附加更多功能,研發重點從之前的“如何實現更好行走”到“賦予機器人更多其他的‘仿人特征’”。自1986年開始,日本豐田公司推出了P系列1-3型機器人,在1997年推出了“P3”和2000年推出了“ASIMO”,“ASIMO”除了優化步行方式外,還增加了對手部的操作和控制。同年,日本索尼于2000年推出人形娛樂機器人SDR-3X,該機器人較以往產品最大的區別在于配備了聲音識別和圖像識別功能,可以根據音樂實現節奏運動。豐田和索尼公司推出的新一代人形機器人,將仿人機器人的研制和生產正式推向實用化、工程化和市場化。人形機器人的“百花齊放階段”(2010至今)。這一階段的人形機器人特征為“智能化”,研發重點從之前的“賦予機器人更多其他的‘仿人特征’”到“機器人如何衍生自主決策能力”。海外方面,波士頓動力、特斯拉、EngineeredArts、軟銀等海外科技企業紛紛發布自主研發的人形機器人,比如2015年軟銀率先實現人形機器人的商業化進程、2021年波士頓動力展示運動能力出色的Atlas、2022年特斯拉發布Optimus原型機等。國內方面,小米、優必選、傅利葉智能等廠商也積極入局。該階段的人形機器人除了運動模塊和感知模塊更為成熟外,最突出的特點就是大模型的應用,機器人的訓練速度和效率大大提高、強化機器人的自主決策能力。1.2.以工業類為代表的產品持續迭代人形機器人發展至今,涌現出適用于各種應用場景的產品,按照目前主流的場景應用分類,可大致分為工業類、娛樂&服務類等兩大類,對應用在工業場景、家庭&商業場景。工業類人形機器人主要用于處理物流、制造、安保和復雜任務等領域的工業場景,替代的是低級和高危人工勞動、以及部分傳統工業機器人無法勝任的工種,比如流水線的后道工序。娛樂類主要實現情感交互和表演展覽等場景,而服務類則主要是從事家庭服務、教育、引導、送餐等場景。1.2.1.工業類的代表之作由于工業場景相較于家庭、商用場景而言,環境的可預測、可控性更強以及機器人自身造成危害的影響性更低,對處于發展初期的人形機器人而言,工業場景的容錯率相對更高,因此比較適合廠商作為人形機器人投放的第一站。縱觀近幾年的機器人新品,工業類產品進展也相對較快,比如波士頓動力的Atlas、特斯拉的Optimus、AgilityRobotics的Digit等。波士頓動力:成立于1992年,公司先后借助美國軍方、谷歌、軟銀、現代集團等股東的支持,陸續發布了BigDog、LittleDog、Cheetah、Spot等四足機器狗和Atlas等雙足機器人。于2022年和母公司現代汽車共同成立了BDAII(波士頓動力人工智能研究所),目標是“引領人工智能和機器人技術的進步”,目前在圍繞Spot和Stretch這類機器人的商業道路和獨立的完全專注于Atlas的技術研究道路兩條路線上齊頭并進。Atlas:高約1.5米,重80公斤,擁有28個自由度,主動力來源為電池,驅動方式為液壓,配備RGB與深度相機,機器人本體共搭載3臺NUC/工控機負責整體控制系統的運算。Atlas最突出的亮點是能實現像人一樣奔跑、跳躍和跨越障礙,而實現這種跑酷動作的核心源于其獨特的感知、規劃、驅動以及驅動背后的制造技術。感知能力:基于配備的RGB攝像頭和TOF深度傳感器,Atlas能快速生成環境的點云,再使用一種名為多平面分割的算法從點云中提取平面,機器人中的映射系統將算法獲取的信息構建模型,從而輔助后續的行為規劃。規劃能力:一方面,設計人員通過離線優化,為Atlas不斷創建新的運動軌跡,而在這些給定的軌跡設計下,Atlas會在實際行動中盡量選擇與之匹配的行為動作,從而減少相關的計算量,提升運動準確性。另一方面,在實際的運動過程中,Atlas會使用MPC(模型預測控制器,該控制器使用機器人動力學模型來預測機器人未來的動作并計算出當前要做的最優動作)來調整實時的力、姿勢和行為時間等細節,以完成“沒有見過的動作”。進一步而言,MPC的預測特性還允許Atlas跨越行為邊界來查看后續動作,使得機器人能實現從一個動作到另一個動作的平滑過渡。運動能力:在完成感知和動作規劃后,機器人要“跑起來”,而液壓系統為Atlas產生了強大的推力,在同樣的空間內,用液壓元件所做的功是電機的數倍甚至是數十倍,因此液壓系統能幫助機器人實現奔跑、跳躍、后空翻等高難度的動作。制造技術:感知、規劃、運動是Atlas跑酷的核心程序,而這些動作實現的背后離不開“如何將重達80kg的物體推上天”的制造技術。波士頓動力將3D打印應用于制造Atlas機器人的液壓動力單元(HPU),用于生產穩態控制器、傳感器、過濾器、排污閥等部件,好處是可以制造緊湊、輕量型閥塊,極大減輕重量并提高空間利用率,從而賦予Atlas跳躍和翻騰所需的強度/重量比。AgilityRobotics:成立于2015年,公司以生產腿部行走機器人為主,專門為物流和制造企業提供倉庫機器人,以應對季節性需求波動造成的勞動力短缺,主要是可以協助人工完成卸貨搬箱、管理貨架、最后一公里配送等任務。Digit:高約1米,重31公斤,擁有18個自由度。Digit在高難度動作、復雜環境適應等高階維度可能不如波士頓動力的Atlas以及特斯拉的Optimus,但是作為倉儲的搬運機器人,其突出的特點就是“實用”,即能在不充電情況下“暴走”5km,意味著Digit能較好地自適應工廠中的各種復雜場地和實現高續航能力,完美適配特定場所的使用需求,而能實現穩定敏捷的運動,核心源于其深度學習能力和獨特的運動設計。學習能力:讓Digit學會走路,需要用到強化學習和模仿學習。其中,強化學習解決馬爾可夫決策過程(MarkovDecisionProcess,MDP)的最優策略,需要用到策略梯度算法;而模仿學習則需要解決參數策略問題。用關鍵算法DASS來搞定數據集,再將DASS于強化學習、模仿學習結合在一起,為機器人設定策略。通過強化學習和模擬學習,訓練雙足機器人模擬及適應不同高度的地面變化,而且只需要稍加改變現有的平地強化學習框架,就可以在樓梯、不平的地面等場景中穩健地行走。運動設計:在下肢架構上,Digit及其第一代產品Cassie最大的特點就是他的“鴕鳥腿”,在動力學部分參考了鳥類步態,尤其是鴕鳥,膝蓋設計成彎曲形狀,能以比較自然的方式去減緩震動。同時在自由度配置上,Digit在下肢也配備了較多的自由度,每條腿5個自由度,其中臀部3個,允許腿向前、后、側三個方向擺動,脛骨和腳踝各1個自由度,但區別于臀部由電機驅動,后兩者是附著在彈簧上,有助于機器人在遇到障礙物時也能保持平衡。另外,DigitV2版本還對足部進行了優化,增加了橫滾自由度,使得Digit可以在不進行側向踩踏的條件下抵抗側向力沖擊,甚至可以實現單腳的靜態平衡。1.2.2.娛樂&服務類的代表之作工業類人形機器人側重點在“工作”,而娛樂&服務類則著重在“交互”,前者更多是在傳統工業機器人基礎上增加“人形態”,使得機器人更適合替代人類工作,而后者在某種意義層面更符合“仿人機器人”的概念本質---能成為“人”。EngineeredArts:成立于2005年,公司至今推出了6款機器人,最新型號Ameca是EngineeredArts機器人技術的集大成者。公司的產品已用于娛樂與教育行業。Ameca:高1.87米,重49公斤,擁有51個主要關節并配置52個電動馬達。Ameca最突出的特點就是能實現復雜的臉部表情管理,而這樣逼真的仿人表情核心在于結合了AI與AB(ArtificialBody)技術。此外,Ameca在近期接入了GPT-4訓練其語言能力、嵌入了StableDiffusion賦予了自身繪畫能力。因此,可以看到Ameca除了運動能力外,在各方面都不斷逼近人類的真實行為。而Ameca能實現這樣的動作表現,離不開其底層系統,包括機器人操作系統Tritium和工程藝術系統Mesmer。Tritium:該系統類似于“大腦”,主要負責智能化和各個機械結構之間的聯動。Tritium可以直接在瀏覽器運行,適用幾乎任何編碼語言和多種軟件,登錄后即可快速處理各種數據,遠程控制機器人面部、頭頸、四肢等的各方面組件,使得機器人適應環境的突然變化并即時做出響應,保證人機交互的安全和樂趣。Mesmer:該系統負責展現身而為人的“靈魂”,像是給出人類的情緒表情和肢體語言。為了讓Ameca看起來像人,Mesmer平臺首先解決的是關節問題,通過對頸部的設計,讓頭部可順滑轉移到任何方位,其次是通過搭配LIDAR設計偵測移動物體,讓機器人能一直注視和它說話的人類,然后通過對手臂、手腕、肩部等部位的設計,讓機器人能做出微妙的肢體語言,比如“聳肩”,最后搭配上人工皮膚,使得Ameca從語言表達到行為動作,都表現得和人一樣流暢自然。2.問題&變化:政策扶持加碼,軟件端迎來奇點人形機器人從提出概念到最近一年各廠商最新型號的推出,已經邁過了60個年頭,發展階段也從“萌芽”到現今的“百花齊放”,工業類出現了以波士頓動力、特斯拉為代表的優秀產品,娛樂&服務類進展也持續推進,特別是最近幾年,人形機器人的產業發展持續超乎市場預期。而站在當前時點,我們可以看到整個人形機器人產業自上而下都出現了推動產業和產品向下一階段演變的新變化,另一方面從產品本身角度來看,人形機器人也存在不少的問題有待解決。具體而言:產業維度:今年以來,國內針對人形機器人的政策走向更為積極的方向,包括對產業的頂層設計和產業鏈的各環節扶持都陸續出臺了相關政策,人形機器人的國內產業環境正逐步得到優化,我們認為,此舉或類似此前新能源車和光伏產業爆發前夕,政策的持續加碼下的產業正逐步走出平臺期、邁向下一階段。產品維度:人形機器人按照系統進行劃分,可大致分為感知、控制、執行系統,其中感知和控制系統主要依賴算法、模型等軟件,執行系統則主要是通過執行器及其中的零部件來實現。軟件端,隨著近年來大模型的爆發性發展,機器人的算法訓練、感知能力和人機交互等方面都得到極大地改善,可以說軟件端在這一輪AI革命中迎來了奇點時刻,機器人作為AI技術的載體也跟隨AI的變革出現了巨大變化。硬件端,相較于軟件端的問題不斷得到優化,機器人在下肢行走和手部集成等方面上仍存在一定的硬件問題。簡而言之,我們認為,雖然硬件端的問題有待完善,但受益于產業維度的政策催化和產品維度的軟件優化,人形機器人產業應該會比之前的三個發展階段“走得更快”,更多的優秀產品也有望加速落地,推動人形機器人最終走向人類社會。2.1.產業維度:國內政策不斷加碼今年以來,針對機器人以及人形機器人的政策呈現顯著變化。一是從數量維度來看,2023年提出的相關文件明顯要比往年更多,根據不完全統計,今年出臺的政策文件共計6份,而2019-2022年間共計出臺的相關政策文件才8份,可以看到國家在對機器人產業的扶持力度上不斷加碼;二是發布政策的部門由中央層面逐步擴散到地方層面,比如在2019-2022年,發行部門均為包括發改委、工信部、科技部等部委級以上的單位,但是今年以來,包括上海、深圳、北京等一線城市均出臺了相關的機器人行動方案,我們認為此舉意味著各地政府開始深入落實國家對于機器人產業的支持指導,有望加速機器人產業的落地,推動相關企業在主流城市的發展;三是從政策的內容來看,今年以來出臺的政策更多提及“人形機器人”這一概念,而非籠統的“機器人”,比如北京的《行動方案》中,提及“對標國際領先人形機器人產品,支持企業和高校院所開展人形機器人整機產品、關鍵零部件攻關和工程化,加快建設北京市人形機器人產業創新中心,爭創國家制造業創新中心。”,可以看出,政策的重點從最初聚焦在傳統工業機器人逐步擴散到人形機器人上面。進一步而言,即使是今年發布的機器人政策也呈現出顯著變化。我們將北京市在6月28日發布的《北京市機器人產業創新發展行動方案(2023—2025年)》,與之前上海、深圳、山東等省市發布的相關政策作對比,可以發現,最明顯的區別在于:之前的政策更多是立足在頂層設計維度對機器人及人形機器人產業作出指導,對產業在發展趨勢上提供了建議,而北京的《行動方案》除了頂層設計外,特別地將人形機器人產業鏈中重要的零部件單獨提出來,包括減速器、伺服驅動系統、控制器、傳感器、末端執行器等,對其也同樣提出了對應的指導意見。我們認為,北京的《行動方案》有著更為重要的意義,一是代表著產業政策從頂層設計落腳到具體的產業鏈環節,為各地方政府對相關企業的扶持提供了更為明確的指導和要求,加速具體細則的落地;二是重點提及人形機器人產業鏈中的關鍵環節,對技術難度大且價值量高的零部件環節和企業提供支持,有望進一步完善我國人形機器人產業鏈,為后續產業鏈降本奠定基礎,加速下游人形機器人產品的迭代和商業化落地。2.2.產品維度:軟件端迎來奇點,硬件端有待優化2.2.1.軟件端:AI賦能機器人在人形機器人的產品層面,軟件端的變化顯得尤為突出,特別是AI技術的發展,逐步滲透到機器人研發和生產中,并在算法訓練、感知能力、人機交互等多個維度對人形機器人產生重大影響。2.2.1.1.算法訓練在現實世界中構建機器人需要從頭開始創建數據集,這樣做既耗時又耗費成本,并且訓練速度較慢。開發人員為了降低成本并加快訓練,逐步開始采用合成數據生成(SDG)、預訓練AI模型(pretrainedAImodels)、機器人仿真(roboticssimulation)、遷移學習(transferlearning)等一系列工具。而以英偉達、谷歌為代表的大廠近幾年在這些工具開發上均取得較好進展,為機器人客戶在研發和訓練上提供更為成熟的工具。1)英偉達Isaac是英偉達推出的一款專門用于機器人環境模擬的引擎,提供從數據合成和訓練、到仿真和測試的全流程配套支持,他融合了機器人相關的深度學習、強化學習、SLAM、圖像處理等的算法。基于英偉達強大的硬件支持,相較于此前常用的仿真器(VREP、ROS等),Isaac在性能、算法、渲染效果、生態支持等維度都明顯更為出色。數據合成:IsaacSim是英偉達的一個機器人模擬應用程序及合成數據生成的工具,而IsaacSimReplicator作為其中用于合成數據生成的引擎,可以生成物理級精確的3D合成數據,用以加速AI感知模型的訓練和性能。?模型訓練:NVIDIANGC匯集了通過GPU優化的AI軟件、模型和JupyterNotebook示例,包括各種預訓練模型以及為NVIDIAAI平臺優化的AI基準和訓練方式。研發人員通過NVIDIANGC選擇合適的預訓練AI模型后,通過NVIDIATAO進行進一步的訓練和微調(NVIDIATAO作為一個可使用自定義數據訓練、調整和優化的框架,使用NVIDIATAO工具包能幫助研發人員微調NVIDIANGC目錄中的預訓練AI模型)。仿真和測試:研發人員通過使用仿真器,檢測物體之間的潛在碰撞和識別碰撞物體之間的接觸點,并計算機器人的傳感器信號,借此來構建虛擬場景,在這個虛擬世界中,開發人員創建了機器人、環境以及機器人可能遇到的其他資產的數字版本。這些環境可以遵守物理定律,并模仿現實世界的重力、摩擦、材料和照明條件。在所構建的虛擬場景中,研發人員通過此前搭建的預訓練模型進行運動規劃和任務規劃,并讓機器人執行任務。在對虛擬場景中執行任務的機器人進行多次試錯和調整,以此不斷優化控制信號,從而驗證和優化機器人的設計、系統及其算法,為機器人在現實世界執行任務實現最高效率打下基礎。至此,英偉達的Isaac平臺從數據合成、模型訓練到仿真測試等提供了全流程的配套支持,幫助機器人客戶實現0-1構建一個機器人,并大大降低了訓練的成本和提高了機器人訓練的速度。2)谷歌2023年6月20日,發布名為Robocat的AI模型,作為世界上第一個能解決和適應多種任務的模型,能安裝在不同的現實機器人上使用。Robocat是一個用于機器人操作的能實現自我迭代的智能體,可以在虛擬和現實世界中實現多項任務,包括對文字、圖像、語音等的處理。Robocat最大的特點是在于“自我迭代”,所謂的自我迭代是指基于一定數量的源于現實世界的數據集,對該數據集進行微調后衍生出新的數據集,將現實世界和衍生出來的數據集進行融合,并在此基礎上進行新的訓練,以此循環反復繼而不斷擴充智能體的學習數據。具體來說,每個新任務的學習遵循5個步驟:1.使用由人類控制的機械臂收集100-1000個新任務或機器人的演示;2.在這個新的任務/手臂上微調RoboCat,創建一個專門的衍生代理;3.衍生代理在這個新任務/手臂上平均練習10000次,生成更多的訓練數據;4.將演示數據和自生成數據整合到RoboCat現有的訓練數據集中;5.在新訓練數據集上訓練新版本的RoboCat。而且這樣的“自我迭代”具備良性循環的訓練:學習的新任務越多,它學習其他新任務的能力就越好。RoboCat的初始版本在以前看不見的任務上只有36%的時間成功,每個任務從500個演示中學習。但是最新的RoboCat,它已經訓練了更多樣化的任務,在相同的任務上,成功率增加了一倍多。簡而言之,RoboCat作為目前為止機器人控制AI模型的“最優形態”,核心優勢在于在合成數據生成維度的跳躍式發展,能快速根據模擬和現實世界中收集到的圖像和動作數據進行訓練,大大降低了機器人對新任務的學習時間和障礙,極大地提高了訓練效率。2.2.1.2.感知能力人形機器人的感知是指通過各種傳感器的信息收集,將被測量的環境信息轉化為電信號或其他所需的形式,然后經過數據處理階段,輸送到不同的感知算法,為機器人后續的規劃、控制階段提供支持。機器人的傳感器按照類別可以分為多種,包括視覺傳感器、力矩傳感器、觸覺傳感器、聽覺傳感器等,雖然每個傳感器的功能都不一,但是當機器人執行某一動作時有可能需要同時用到多種傳感器的信息,比如用于識別環境時,需要使用攝像頭、激光雷達、毫米波雷達等傳感器,機器人才能比較精準地確定物體的信息并進行后續的操作。因此,如何融合多個傳感器的信息,并通過感知算法同時處理多維度信息,是人形機器人在運動規劃和感知能力上需要解決的問題。多傳感器融合(Multi-sensorFusion,MSF),是指利用計算機技術,將來自多傳感器或多源的信息和數據以一定的準則進行自動分析和綜合,以完成所需的決策和估計而進行的信息處理過程。和人的感知相似,不同的傳感器擁有其他傳感器不可替代的作用,當各種傳感器進行多層次,多空間的信息互補和優化組合處理,最終產生對觀測環境的一致性解釋。傳感器融合能幫助機器人提高識別精度、增強魯棒性、擴展覆蓋范圍。AI大模型將優化多傳感器融合技術。按照信息融合架構進行劃分,可以將傳感器融合技術分為分布式、集中式和混合式,或者可以分為后融合算法和前融合算法,或者可以分為數據級、特征級和決策級融合。其中,目前常用的是分布式/后融合算法,其核心思想是每個傳感器都有自己獨立處理的目標數據,融合模塊將對各傳感器的濾波結果進行有效結合,而集中式/前融合算法則相反,使用一個感知算法對多維綜合感知數據進行處理。在以往算力受限和模型發展不成熟的情況下,使用分布式/后融合算法能在犧牲一定精度的同時降低算法復雜度,但由于不同傳感器的數據類型不一,系統穩定性也會因此受到影響,而且受限于單一類型傳感器的能力上限,后融合算法會導致特定條件下的偶發性漏檢或誤檢。而隨著算力的提升和多模態大模型的發展,數據級/集中式/前融合算法的缺點有望得到彌補,比如集中式融合存在因中央處理單元性能不足導致通信延遲和計算瓶頸的問題,而AI大模型的算力提升將解決這一點,從而將目前主流的融合算法方案從后融合/分布式/決策級推向前融合/集中式/數據級,數據級的傳感融合也能減少感知過程中原始數據的信息損失而提高感知精度,提高數據處理的準確性。基于TransFormers模型的多傳感器融合技術率先在自動駕駛領域得到應用。TransFormers作為可能取代CNN和RNN的深度學習模型,能快速地完成對大量數據的特征提取,使得大模型在多模態信息處理上的能力得到不斷強化。而TransFormers需要海量訓練數據,而大模型和更大參數量級的發展將推動TransFormers模型的完善,驅動數據級的感知算法進一步優化。特斯拉在2021年的AIDay上率先發布BEV+TransFormers算法,基于“輸入-提取-轉換-融合-時序-輸出”的思路,實現“2D-3D-4D”的轉換。2.2.1.3.人機交互AI大模型對機器人在人機交互層面的影響除了能實現更好的對話交流,讓機器人執行語言任務外,更為重要的影響是在于能將人類傳遞的自然語言轉化為執行任務的指令,讓機器人能根據指令反饋物理操作。1)語言任務近年來,大型語言模型(LLM)在語言生成和理解方面取得了重大進展,LLM的使用幫助機器人更好地理解和學習人類語言,并根據人類的意圖和語氣,進行語音交流和反饋。比如,波士頓動力將ChatGPT安裝到機器狗Spot中,Spot能根據工作人員的問題作出相應的回答,并且能根據機器狗自身的實際情況,將信息反饋給工作人員,例如當被問及下一次任務的檢查次數時,Spot能準確回答次數。除了能反饋語音信息外,機器人還可以根據所表達的語言,傳遞面部表情,例如,EngineeredArts將GPT-4接入到Ameca中,Ameca不僅能流暢地和人類進行交流,還會根據聊天的內容作出相應的面部表情,包括皺眉、吃驚、生氣、眨眼等。2)物理任務更進一步而言,我們其實不僅希望LLM在機器人中的角色僅僅作為一個“語音助手”,對外界輸入的信息作出包括語言、圖片甚至表情等的輸出反饋,更是希望輸入的語音信息如何轉化為能使機器人主體在現實世界中作出物理行為。簡單來說,我們希望LLM幫助機器人實現與人的對話互動,以及更為重要的動作互動。如何實現機器人與環境的物理交互,谷歌在今年推出的視覺語言模型PaLM-E給出了答案。PaLM-E作為一個具備5620億個參數,集成了視覺和語言,用于機器人控制的視覺語言模型(VLM),與LLM不同之處在于其對物理世界的感知。PaLM-E能驅動機器人執行任務,比如當人類給機器人一個高級指令,PaLM-E可以為機器人將這一指令生成行動規劃,然后讓機器人親自執行。為什么PaLM-E能實現這樣的功能?具體來說,PaLM-E是基于谷歌現有的大型語言模型PaLM,通過添加感官信息和機器人控制而迭代生成的。因此:一方面,它具備大型語言模型的功能。通過語言模型將指令分解為一系列文本步驟,同時訓練人員會為機器人預先提供一個基礎技能庫,這個技能庫包含了一系列的“原子”技能,每個“原子”技能對應執行一個短任務。因此當機器人接受到高級指令時,會通過LLM將其拆分為多個簡單動作,而且這些簡單動作已經存在于訓練集中,機器人只需要把對應的動作從訓練集中摘取出來,組成一套行為步驟即可。另一方面,它具備分析圖像和傳感器數據的能力。通過分析機器人相機收集的數據,PaLM-E可以將這些圖像、語音之類的數據,編碼成一系列與語言標記大小相同的向量,類似語言模型處理語言數據一樣處理感官數據。最后,通過神經網絡對機器人實現控制。簡而言之,要實現機器人的動作互動,一是要通過LLM使機器人理解人類的自然語言,二是通過VLM使機器人實時理解周圍的環境以便后續的任務操作。因此,在未來,“LLM+VLM”將成為機器人作為一個智能體能夠推理環境、任務,并完全根據語言采取行動的核心框架。但是,上述的做法存在一個較大的問題,萬一拆分出來的短任務并沒有出現在數據集中,那如何處理?即當面對沒有預訓練樣本的行為動作,機器人該如何執行相應任務。針對這一問題,學術界最近也提出了新的解決方案,2023年7月12日,李飛飛團隊發布最新成果展示:通過大模型的接入,能直接將復雜指令轉化為具體行動規劃,而無需額外的數據和訓練。換句話來說,當人類通過自然語言向機器人發出指令后,機器人通過視覺系統識別物體并進行行動規劃,然后在沒有預訓練的基礎上執行了任務。2.2.2.硬件端:零部件有待優化人形機器人的執行系統由多個執行器組成,而執行器主要安裝在機器人的雙臂和雙腿,幫助機器人實現手部操作和腿部移動的兩個主要功能,因此機器人的硬件端問題主要集中在上肢的手部和下肢的腿部兩個部位。2.2.2.1.下肢:行走穩定性雖然已經有以Atlas為代表的機器人能實現十分炫酷的奔跑、跳躍等動作,但其實目前對于大部分雙足人形機器人而言,行走穩定性仍然難以保證,特別是針對非直線平面的環境,機器人因為感知、規劃等問題仍會出現失去平衡等現象,而且使用雙足行走的機器人目前行走緩慢,最高行走速度也只有1-2m/s,比如Optimus最高時速為5英里/小時、Atlas時速為2.5m/s、CyberOne時速為3.6km/h等。因此,對于人形機器人而言,首要問題仍是使機器人“像人一樣行走”---在各種環境中平穩行走甚至奔跑,同時還擁有較快的速度。而目前看來,從腳部的傳感器、驅動器的方案到控制器的算法規劃,都有待進一步完善的地方。下面我們主要討論硬件端的問題及解決方案,即驅動器和傳感器的情況。1)驅動器存在的問題:反射慣性大。為了實現動態任務,機器人的驅動系統需要發揮出與機器人總重量相匹配的力,換句話來說,就是機器人的下肢需要較高的力密度。一般而言,增加執行器的轉矩密度比較常用的方案是增加減速器的傳動比,但這樣做的缺點是增加傳動比的同時會增加關節中的摩擦力和轉子的反射慣性,從而降低肢體的反向驅動能力及其調節和減輕沖擊的能力。而且更為重要的是,傳動比不能無限地增加,因為反向驅動性能的下降速度是要明顯快于扭矩密度的增加速度。簡單來說,目前常用的高齒輪減速比的方案(比如諧波減速器+力矩傳感器)可以使得機器人的扭矩密度在有限范圍內增大,但同時由于其摩擦力增大和脆弱性提高,機器人只能比較緩慢地行走。2)力矩傳感器存在的問題:負載能力不足。安裝在機器人腳部的力矩傳感器是最基本的傳感器,他的作用是測量施加在其腳上的地面反作用力和力矩,進而用于計算零點矩點,作為控制機器人行走穩定性的重要參數。但是基于傳感器中的彈性體設計等因素,六維力矩傳感器在剛度、測量精確性、靈敏度等存在不足。特別是剛度問題,根據數據統計,目前六維力矩傳感器的最大力負載一般僅為機器人重量的1-2倍(當面臨外部干擾或者變化復雜的地面環境時,載荷也隨之下降),一旦承受超出這一范圍的沖擊力(機器人奔跑時的負載范圍較步行時更小),傳感器或出現故障并影響機器人的行走。另外,傳感器中的扭矩范圍也受到機器人重量和腳部尺寸的限制,一般而言,腳踝扭矩要求不大于機器人重量和腳部尺寸的乘積。解決方案:為了避免傳感器在意外情況下受到損壞,目前業界一般采用過載保護機制+安裝沖擊吸收部件的組合方案,一是過載保護機制,通過制動器來實現斷開保護,二是在傳感器中安裝沖擊吸收部件以減輕機器人接觸地面時的反作用力,比如安裝阻尼器、記憶材料、液壓減震器、彈簧等。在《DesignofaHighlyDynamicHumanoidRobot》中也提到,使用定制的足部傳感器僅測量腳趾和腳跟的垂直反作用力,附加一個六維的IMU用于測量地面的接觸狀態,這樣能減少傳感器的受力負載,同時使用線切割來作為過載保護。總體而言,目前針對傳感器載荷能力的問題,要么采用減少維度的方式降低受力(比如使用三維力矩傳感器),要么采用增加結構件的方式緩沖受力,這兩種方法雖然一定程度上彌補了傳感器剛度不足的問題,但同時導致測量精度下降和腿部關節模組集成難度增大等問題,因此如何根據人形機器人的足部特點定制適合的傳感器,最大程度保證行走穩定性仍然需要學術界和業界的進一步探討。2.2.2.2.手部:零部件集成如果說實現雙腿的平穩行走是人形機器人的第一功能和要求,那么將機器人推向商業化的核心就是如何通過機器人的雙臂執行任務來實現機器人的商用價值。人形機器人的雙臂是實現大部分工業操作的工具,因此對雙臂的要求主要集中感知物體和承載物體兩個維度,前者幫助機器人在執行任務前識別所需要操作的目標,后者幫助機器人在工業流程中應對各種任務。具體到硬件端,基于工業機械臂的成熟工藝,機器人在手部構成上可借鑒機械臂的技術,而區別在于人形機器人對于精細化操作要求更高,因此需要在傳感器上進一步優化。目前機器人的主要問題體現在傳感器上,雖然和腿部的硬件類似,但是手部對于傳感器的要求與上述談到的腿部部分有所不同。1)傳感器人形機器人的靈巧手安裝有多個不同的傳感器,以騰訊的TRX-Hand為例,手指就結合了視覺、接近覺、觸覺和力覺傳感器,而其中觸覺和力矩傳感器是大多數靈巧手都會配置的,用以在接觸物體時,獲取物體的位置、形狀和受力等信息,使機器人能感知物體的狀態并在物體交互時更為輕柔和自然。存在的問題:集成難度大。相對于腿部而言,手部對傳感器的集成有更高的要求。比如手部一般具有10-12個自由度,這就意味著需要將10-12組關節模組(包括驅動器、傳感器和結構件等零部件)都集成到手掌,這大大提高了對零部件的體積和重量的要求。進一步而言,光是將觸覺傳感器集成到手指和指尖就存在不少問題,比如機器人的手和人類指骨有所不同,前者的手指近端和中端的距離要比人類的短,接觸面積的縮小導致連接困難,而且由于靈活性的原因,觸覺傳感器不能完全覆蓋手指鏈接之間的空白區域。又比如,觸覺傳感器的觸覺元件增多會導致讀取和傳輸數據的導線增多,導線數量越多集成難度越大,而將并行連接改為串行連接可以減少導線數量,但會導致傳輸速率變慢,等等。解決方案:針對集成問題,目前逐漸被市場所接受的是通過3D打印技術將傳感器嵌入機器人的手指,傳感器之間的緊湊性、堅固性以穩定性也因此得到提高,常用的材料包括TPU、炭黑、CNT等。另外,研究人員也提出使用欠驅動運動(underactuatedmovements,當致動器數量小于自由度時,機器人系統就被稱為欠驅動系統),通過減少致動器數量并簡化結構來實現自適應抓取,將驅動力傳遞給欠驅動關節,從而簡化了機械手的組裝,以降低集成難度和成本,等等。3.未來:應用場景&市場空間人形機器人的應用場景會是哪里?為什么在過去十年各家科技企業紛紛染指機器人賽道,并且花費大量的時間、成本和人力進行數次的試驗和測試。雖然現在基于高昂的成本和不成熟的技術,人形機器人的應用場景有限,短期也難以激起大量的市場需求,但是我們認為,正如馬斯克所說,當人形機器人成熟后,機器人的需求將遠超汽車等產品,屆時機器人的作用將作為人類的“替代工具”,替代人類在工業、家庭、商業中的部分功能,特別是成本、安全、健康等因素導致人類無法勝任的工種,機器人的應用場景也遍布人類生活和工作的多個地方。比如,人工智能機器人公司Figure制造通用類人形機器人的目的就是為了解決勞動力短缺、人口老齡化、外太空探索等問題。因此,考慮到成本、需求以及容錯率等因素,我們認為,人形機器人將率先在工業場景,特別是工廠中落地,隨后經過技術優化和成本下降,場景將逐步滲透到家庭和商用。3.1.工業場景:替代傳統工業機器人和人類勞動力3.1.1.性能+成本優勢凸顯在人形機器人中,未來率先應用的大概率會在工業場景,去取代重復、無聊、危險的工作,替代傳統工業機器人和人類勞動力。性能優勢下,機器人將部分替代傳統工業機器人。現階段傳統工業機器人基本上能覆蓋工業制造中大部分的使用場景,那人形機器人取代的是哪部分工種呢?傳統工業機器人存在靈活性較差的問題。對于工業機器人而言,按照應用場景來分類,可以分為搬運、碼垛、分揀、焊接、裝配、噴涂、切割、檢測等用途,目前主要以搬運和焊接為主,其他場景由于工業機器人的可移動性較差、安裝條件要求較高等原因無法較好地使用機器人。按照作業方式進行劃分,可以分為直角坐標、圓柱坐標、SCARA、多關節、協助機器人,除了協助機器人外,前4種屬于傳統工業機器人,這些傳統工業機器人存在的問題是,雖然可以按照需求開發新的功能,但是需要專業人員進行編程、測試、開發等一系列流程,靈活性較差,而協助機器人雖然操作簡單、編程方便,但是只適合用在任務簡單的工種,且屬于輕量級機器人,負載能力相對較弱。因此,歸納起來可以發現,傳統工業機器人的靈活性、易用性較差,難以滿足一些長尾和靈活性要求較高的工業需求。人形機器人將作為傳統工業機器人的重要補充。人形機器人的優勢在于,在運動方面能像人一樣靈活移動,快速移動到工廠中各種場景,在任務執行中基于大模型訓練迭代后形成的自主決策能力,能針對各種工作和場景做出實時的反饋。簡單而言,人形機器人在工業場景中,依靠更高階的自主決策能力和更靈活的移動方式,能較好地填補傳統工業機器人的不足、替代原本由人工操作的工作。成本優勢下,機器人將部分取代人類勞動。海外高昂的勞動力成本使得機器人替代人工的優點越發凸顯。以美國為例,用工成本除了基本薪酬外,還包含稅收、福利、保險、培訓費用以及各種法律法規風險造成的潛在成本。首先只粗略對比基本薪酬,根據美國勞工統計局數據,2023年5月美國所有員工的實際平均工資為28.83美元/小時,聯邦規定的最低工資標準也達到7.25美元/小時,我們假設人形機器人的初期售
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 小學三年級上冊口算練習500題
- 液體外滲的預防與處理 2
- 四川司法警官職業學院《Excel統計實踐》2023-2024學年第二學期期末試卷
- 四川省巴中學市平昌縣市級名校2025屆初三下-開學考試物理試題試卷含解析
- 江西科技師范大學《制圖》2023-2024學年第二學期期末試卷
- 吉林農業大學《馬克思主義發展史》2023-2024學年第二學期期末試卷
- 沈陽城市學院《給排水工程制圖與CAD》2023-2024學年第二學期期末試卷
- 山西師范大學現代文理學院《音樂名作賞析》2023-2024學年第一學期期末試卷
- 上海市徐匯區上海第四中學2024-2025學年高三3月月考(化學試題理)含解析
- 四川綿陽中學2025年高三下學期高考模擬(最后一模)生物試題含解析
- GB/T 14388-1993木工硬質合金圓鋸片
- 衛生院B超、心電圖室危急值報告制度及流程
- 腫瘤化療-課件
- 第三節鋼筋混凝土排架結構單層工業廠房結構吊裝課件
- 普通高中學生綜合素質評價檔案
- 產品路標規劃-綜述2.1
- 2023年鄭州工業應用技術學院單招考試面試題庫及答案解析
- 《電子制造技術-電子封裝》配套教學課件
- 二月份循證護理查房課件
- 粉筆國考行測模考大賽第八季
- JJF(湘) 09-2018 純水-超純水系統監測儀表(電導率)計量校準規范-(高清現行)
評論
0/150
提交評論