




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
具身智能機器人擴散策略DiffusionPolicy基本原理與代碼詳解1主要內容23DiffusionPolicy論文詳解UMI論文詳解相機軟硬件介紹及驅動安裝4代碼詳解1DiffusionPolicy論文詳解DiffusionPolicy基本原理
Abstract4擴散策略是一種新的機器人行為生成方法,它將機器人的視覺運動策略表示為一個條件去噪擴散過程。我們對4種不同機器人操作基準的15種不同任務的擴散策略進行了基準測試,發現它始終優于現有的最先進的機器人學習方法,平均提高了46.9%。擴散策略學習動作分布評分函數的梯度,并在推理過程中通過一系列隨機朗之萬動力學步驟對該梯度場進行迭代優化。我們發現擴散公式在用于機器人策略時具有強大的優勢,包括優雅地處理多模態動作分布,適用于高維動作空間,并表現出令人印象深刻的訓練穩定性。為了充分發揮擴散模型在物理機器人視覺運動策略學習中的潛力,本文提出了一系列關鍵的技術貢獻,包括滾動時域控制(RHC)、視覺調節和時間序列擴散transformer。我們希望這項工作將有助于激發新一代的政策學習技術,這些技術能夠利用擴散模型強大的生成建模能力。代碼、數據和培訓細節可以在找到。DiffusionPolicy核心架構DiffusionPolicy基本原理Introduction5PolicyLearningfromDemonstration,是一種通過監督回歸任務,從觀測到的行為數據中學習機器人行動策略的方法多模態分布、序列相關性、高精度要求現有工作及其不足本文提出了擴散政策,推斷動作得分梯度,并通過一系列隨機朗之萬動力學步驟迭代優化表達多模態動作分布、高維輸出空間、訓練穩定性閉環動作序列、視覺觀測條件、時間序列擴散transformerDiffusionPolicy基本原理
DDPM基本原理6擴散模型是一類概率生成模型,它的訓練過程包括兩個階段:前向擴散過程和后向去噪過程。
前一階段由多個步驟組成,其中低級噪聲被添加到每個輸入圖像,其中噪聲的規模在每個步驟都不同。訓練數據逐漸被破壞,直到產生純高斯噪聲。
后一階段通過逆轉正向擴散過程來表示。采用相同的迭代過程,但噪聲被順序去除,因此,原始圖像被重新創建。
在推理時,通過從隨機白噪聲開始逐漸重建圖像來生成圖像。在每個時間步(timestep)減去的噪聲通常基于U-Net架構。擴散模型的三種形式:去噪擴散概率模型(DDPM)、噪聲條件評分網絡(NCSN)以及隨機微分方程(SDE)DiffusionPolicy基本原理DDPM機制拆解71.DDPM的輸出被建模為一個去噪過程,通常被稱為隨機朗之萬動力學(StochasticLangevinDynamics):該公式也可以解釋為一次帶有噪聲的梯度下降步驟:訓練過程中,從帶有噪聲的數據樣本中預測噪聲,損失函數為:DiffusionforVisuomotorPolicyLearning機制拆解82.擴散用于視覺運動策略學習:
(1)改變輸出??使其表示機器人動作;
(2)使去噪過程以觀測????為條件。
將公式(1)修改為:
將公式(3)修改為:在同一時間點上,動作和觀測的聯合概率分布,它考慮了動作和觀測之間的所有可能的聯合情況在給定觀測的情況下,動作的概率分布,只考慮在特定觀測條件下動作的分布情況,不考慮觀測本身的分布。VS條件分布與聯合分布對比DiffusionPolicy關鍵設計決策及神經網絡架構
91.針對
的神經網絡架構設計
(1)基于CNN的擴散策略(CNN-basedDiffusionPolicy);
采用1D時間卷積網絡,進行一些修改以適應DiffusionPolicy。
主要修改包括:a.通過特征線性調制(Feature-wiseLinearModulation,FiLM)將觀測特征條件化到每個卷積層,模擬條件分布并去除不兼容的目標狀態條件;b.只預測動作軌跡,而不是觀測動作軌跡的串聯;c.采用滾動預測時域(recedingpredictionhorizon,RPH)進行動作的連續規劃。
優勢:在大多數任務中表現良好,無需大量超參數調優,但在動作序列變化較快的任務中表現不佳。DiffusionPolicy核心架構DiffusionPolicy關鍵設計決策及神經網絡架構
101.針對
的神經網絡架構設計
(2)時序擴散transformer(Time-seriesdiffusiontransformer)。
引入一種新型transformer架構,采用minGPT架構進行動作預測;
動作序列和觀測特征通過嵌入層處理,輸入transformer解碼器;
優勢:在任務復雜度和動作變化率高的任務中表現更佳,但對超參數敏感,訓練難度較高。2.視覺編碼器(VisualEncoder)
使用標準的ResNet-18作為視覺編碼器,并進行修改以保持空間信息(使用空間softmaxpooling代替全局平均
池化)和穩定訓練(使用GroupNorm代替BatchNorm)。DiffusionPolicy核心架構DiffusionPolicy特性
111.多模態動作分布的建模:DiffusionPolicy能夠有效地捕捉和表達復雜的多模態動作分布。通過去噪過程,該模型能夠從高斯噪聲中生成多種合理的動作序列,反映出多樣化的行為模式。2.位置控制(PositionControl)的協同效應:通過聯合建模多個動作的分布,DiffusionPolicy能夠捕捉到不同動作之間的協同效應。3.動作序列預測的優勢:DiffusionPolicy不僅可以預測單步動作,還能夠預測長時間序列的動作。4.訓練的穩定性:通過學習能量函數的梯度而不是直接學習動作分布,DiffusionPolicy避免了對歸一化常數的估計,從而實現了更加穩定的訓練過程。DiffusionPolicy特性2UMI論文詳解UMI基本原理
Abstract13我們提出了一種通用操控界面(UniversalManipulationInterface,UMI),這是一種數據采集和策略學習框架,能夠將野外人類示范的技能直接轉移到可部署的機器人策略中。UMI使用手持抓握器,并結合精心設計的接口,能夠實現便攜、低成本且信息豐富的數據采集,尤其適用于復雜的雙手操作和動態操控示范。為了促進可部署的策略學習,UMI引入了精心設計的策略接口,包括推理時的延遲匹配和相對軌跡動作表示。通過這些特性,UMI所學習到的策略不依賴特定硬件,能夠在多個機器人平臺上直接部署。我們通過全面的現實世界實驗展示了UMI的多功能性和有效性,其中,通過多樣化的人類示范訓練出的策略在面對新環境和新物體時能夠實現零樣本泛化。UMI基本原理Introduction14我們應該如何展示復雜的操控技能,以便機器人能夠學習現有方法的不足UMI框架:通過人類演示物理接口和策略接口解決上述問題UMI框架主要貢獻:提供了一個實用且可訪問的解決方案,能夠在任何環境中展示各種動作,同時保持高效的技能轉移UMI實現方法:演示接口設計及策略接口設計
151.演示接口設計HD1:Wrist-mountedCamerasasInputObservation(腕帶式攝像頭作為輸入觀察設備)腕帶攝像頭作為輸入觀測。只依賴手腕上的攝像頭,不需要任何外部攝像頭設置。當在機器人上部署UMI時,將GoPro相機放置在與手持抓手相同的3d打印手指相同的位置。HD2:FisheyeLensforVisualContext(魚眼鏡頭用于提供視覺上下文)在腕式GoPro相機上使用了155度魚眼鏡頭附件,提供了足夠的視覺環境HD3:SideMirrorsforImplicitStereo(側面鏡子用于提供隱式立體視覺)為了緩解單目相機視角缺乏直接深度感知的問題,在相機的周邊視圖中放置了一對物理鏡,從而在同一圖像中創建了所有隱式立體視圖UMI實現方法:演示接口設計及策略接口設計
161.演示接口設計HD4:IMU-awareTracking(IMU感知跟蹤)UMI通過利用GoPro內置的,將IMU數據(加速度計和陀螺儀)記錄到標準mp4視頻文件中的能力,來捕捉運動。通過視覺跟蹤和慣性姿態約束,基于ORB-SLAM3的慣性-單目SLAM系統,即使由于運動模糊或缺乏視覺特征(例如低頭看桌子)而導致視覺跟蹤失敗,也能保持短時間的跟蹤。HD5:ContinuousGripperControl(連續夾具控制)拋物任務需要精確的時機來釋放物體。由于物體有不同的寬度,二進制的夾持動作將不太可能滿足精度要求。在UMI夾持器上,通過基準標記連續跟蹤手指寬度。UMI利用串聯彈性末端執行器原理,通過連續的爪寬度控制來調節柔軟手指的變形,從而隱式記錄和控制抓握力。HD6:Kinematic-basedDataFiltering(基于運動學的數據過濾)雖然數據收集過程與機器人無關,應用簡單的基于運動學的數據過濾來為不同的機器人選擇有效的軌跡。具體而言,當機器人的基本位置和運動學已知時,通過SLAM恢復的末端執行器絕對姿態允許對演示數據進行運動學和動力學可行性濾波。在過濾后的數據集上進行訓練,確保策略符合具體實施例的運動學約束。UMI實現方法:演示接口設計及策略接口設計
172.演示接口設計利用收集到的演示數據,可以訓練一個視覺運動策略,該策略接收一系列同步觀測(RGB圖像、6個自由度的末端執行器姿態和抓手寬度),并產生一系列動作(末端執行器姿態和抓手寬度)。PD1:Inference-timeLatencyMatching(推理時的延遲匹配)關于如何處理不同硬件設備之間的延遲差異,以確保輸入數據的同步性。PD1.1:ObservationLatencyMatching(觀察延遲匹配)PD1.2:ActionLatencyMatching(動作延遲匹配)UMI實現方法:演示接口設計及策略接口設計
182.演示接口設計利用收集到的演示數據,可以訓練一個視覺運動策略,該策略接收一系列同步觀測(RGB圖像、6個自由度的末端執行器姿態和抓手寬度),并產生一系列動作(末端執行器姿態和抓手寬度)PD2:RelativeEnd-EffectorPose(相對末端執行器位置)關于如何表示和處理末端執行器(EE)的位置和動作,以提高策略的魯棒性和跨硬件平臺的通用性。PD2.1RelativeEETrajectoryasActionRepresentation(相對末端執行器軌跡作為動作表示)PD2.2RelativeEETrajectoryasProprioception(相對末端執行器軌跡作為本體感知)PD2.3RelativeInter-gripperProprioception(相對夾具間的本體感知)UMI框架中使用的不同動作表示方法的對比,包括相對軌跡(Relativetrajectory)、增量動作(Deltaaction)、以及絕對動作(Absoluteaction)。3相機軟硬件介紹及驅動安裝Ubuntu22.04安裝Gopro驅動
201.檢查USB設備,首先,確認攝像頭是否被識別:lsusb2.檢查視頻設備文件ls/dev|grepvideo3.使用v4l2-ctl工具使用v4l2-ctl工具查看攝像頭信息。首先,進行安裝:sudoaptupdatesudoaptinstallv4l-utils最后,使用以下命令查看攝像頭信息:v4l2-ctl--list-devices4.使用ffmpeg命令捕獲一幀圖像:ffmpeg-fv4l2-i/dev/video0-vframes1test_frame.jpgUbuntu22.04安裝Gopro驅動(額外可選)
21打開Gopro官網,按照官方文檔依次安裝:1.最小化安裝:pipinstallopen-gopro2.額外GUI安裝:pipinstallopen-gopro[gui]3.有線連接GoproWebcamgopro-webcamUbuntu22.04安裝IntelRealsense驅動
221.打開IntelRealsense官網;2.找到SDK下載,點擊Visitdevelopercenter;3.點擊左上角的SDK2.0;4.選擇Linux系統:Ubuntu22.04安裝IntelRealsense驅動
23按照官方文檔依次安裝;1.安裝依賴:(1)更新Ubuntu:sudoapt-getupdate&&sudoapt-getupgrade&&sudoapt-getdist-upgrade(2)安裝構建librealsense的核心包:sudoapt-getinstalllibssl-devlibusb-1.0-0-devlibudev-devpkg-configlibgtk-3-dev(3)安裝build工具:sudoapt-getinstallgitwgetcmakebuild-essential(4)準備Linux后端和開發環境,PS:運行
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 商務英語中的語言智能風險管理技術應用論文
- 2025-2030全球及中國汽車和卡車數字儀表板行業市場現狀供需分析及市場深度研究發展前景及規劃可行性分析研究報告
- 供應鏈協同決策支持系統設計-全面剖析
- 《羊草保護中的多學科整合研究需求》論文
- 2025-2030全球及中國家用啤酒釀造套件行業市場現狀供需分析及市場深度研究發展前景及規劃可行性分析研究報告
- 污水處理新型藥劑研發-全面剖析
- 《燕麥對女性更年期綜合征的改善作用:醫學干預與營養調節》論文
- 2025-2030全球及中國信息技術咨詢行業市場現狀供需分析及市場深度研究發展前景及規劃可行性分析研究報告
- 2025-2030全球及中國人發和假發行業發展現狀及營銷模式分析研究報告
- 2025-2030全球及中國三維運動捕捉行業市場現狀供需分析及市場深度研究發展前景及規劃可行性分析研究報告
- 《淺談A企業消防安全管理中存在的問題及完善對策研究》6300字(論文)
- 秦漢考古Uooc課程答案
- 《電力建設工程施工安全管理導則》(NB∕T 10096-2018)
- 醫療器械考試題及答案
- 畫餅充饑兒童故事繪本 課件
- 心理護理的溝通與技巧
- 開關、插座及其它電氣設備技術規格書
- 早期阻斷性矯治-乳前牙反頜的矯治(口腔正畸科)
- 手術室護士子宮切除手術護理配合常規
- DB61T 5097-2024 強夯法處理濕陷性黃土地基技術規程
- 藥物臨床試驗統計分析計劃書
評論
0/150
提交評論