




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
北京信息科技大學自動化學院智能機器人原理與應用“智能檢測技術與模式識別”研究所14家庭智能服務機器人雜亂環境中推抓技能學習雜亂環境中機器人推動與抓取技能自主學習問題被學者廣泛研究,實現二者之間的協同是提升抓取效率的關鍵,本文提出一種基于生成對抗網絡與模型泛化的深度強化學習算法GARL-DQN。首先,將生成對抗網絡嵌入到傳統DQN中,訓練推動與抓取之間的協同進化;其次,將MDP中部分參數基于目標對象公式化,借鑒事后經驗回放機制(HER)提高經驗池樣本利用率;然后,針對圖像狀態引入隨機(卷積)神經網絡來提高算法的泛化能力;最后,設計了12個測試場景,在抓取成功率與平均運動次數指標上與其他4種方法進行對比,在規則物塊場景中兩個指標分別為91.5%和3.406;在日常工具場景中兩個指標分別為85.2%和8.6,驗證了GARL-DQN算法在解決機器人推抓協同及模型泛化問題上的有效性。14.1家庭智能空間服務機器人操作技能框架本文提出一種機器人自監督學習方法GARL-DQN,用于訓練雜亂場景中機器人推抓之間的協同。首先,將兩個RGB-D相機采集到的當前環境中的圖像狀態信息送入經驗池中,并通過重力方向正投影構建RGB、Depth以及Mask目標掩碼高度圖。其次,將上述高度圖經過特征提取網絡進行特征提取。將提取到的特征經過隨機網絡層處理,以提高該算法的泛化性。然后,將特征輸入到推動與抓取網絡中用于生成推動與抓取功用性圖。最后,將抓取網絡作為判別器,推動網絡作為生成器,評估當前狀態是否可以對目標物體執行抓取,以便在推動與抓取之間進行選擇。兩個網絡交替訓練,提高訓練速度?;贕ARL-DQN的深度強化學習機器人操作技能框架如圖14.1所示。圖14.1基于GARL-DQN的深度強化學習機器人操作技能框架模型泛化與遷移學習密切相關,用于從源任務轉移知識來提高目標任務的性能。然而,強化學習與監督學習不同的是,將源任務上預先訓練的模型進行微調以適應目標任務往往是無益的。因此,本小節構建了一種隨機卷積網絡來增強GARL-DQN算法的泛化能力。算法具體如下:引入一個隨機網絡
,將其先驗參數進行初始化,對強化學習模型的初始狀態用網絡層
進行處理并將處理后的結果輸入到卷積神經網絡中。在每一輪迭代后,該卷積神經網絡都會重新初始化網絡
的權重,使其可以在有噪聲的特征空間上學習。14.2GARL-DQN算法設計14.2.1GARL-DQN的泛化模型建模為了實現推抓之間的協同,在訓練環境中,機器人通過RGB-D相機采集到當前時刻的圖像狀態信息,分別經過視覺特征提取網絡與隨機卷積網絡
提取特征,作為抓取網絡算法的輸入。該算法是異策略算法,將目標策略與行為策略分開訓練,在保證探索的同時求得全局最優解。將面向目標的抓取網絡表示為
,在訓練場景中隨機指定目標物體
并將抓取獎勵表示為
,
的定義方式如下:14.2GARL-DQN算法設計14.2.2GARL-DQN抓取網絡目標重標記策略可分為以下兩種情況:若機器人未抓取到任何物體則認為是失敗的回合,不存入經驗池中;若機器人抓取到非目標物體或者為移動遮擋物所做的抓取動作,將非目標物體標記為,并對樣本元組進行轉換存儲到經驗池中。本章將推動動作作為抓取動作的輔助動作,目標為減小目標物體周圍的“空間占有率”。但本文的目標為減少機器人的總運動次數,故應盡可能地降低推動動作的頻率??紤]到機器人推抓之間的相互作用復雜且耦合度較高,故將基于目標的推動網絡作為生成器,使得動作價值函數不斷逼近抓取網絡學習到的閾值,由抓取網絡作為判別器來判斷當前狀態是否適合抓取。14.2GARL-DQN算法設計14.2.3GARL-DQN的推動網絡建模本節給出抓取網絡與推動網絡之間的生成對抗網絡建模使得該算法可以更好地擬合出動作參數,學習到最優的推抓位置參數與角度參數。基于兩個網絡之間的零和博弈,將目標設置為一個狀態的收益分布而不是收益均值,將平均回報向量轉化為回報分布函數。將動作價值函數表示為隨機變量,建立期望值與期望函數之間的關系:
,將定義在分布上的貝爾曼算子表示為
,最終得到最終得到貝爾曼方程如式(1)與式(2)所示:
(1)
(2)14.2GARL-DQN算法設計14.2.3GARL-DQN的生成對抗網絡建模本章目標為最小化輸出與真實分布之間的距離。一方面,推動網絡的目標為產生最優狀態-動作值分布的現實樣本,另一方面,抓取網絡旨在將真實樣本與從推動網絡輸出的樣本進行對比,判斷當前時刻狀態是否達到抓取閾值。在每個回合中,推動網絡接收當前時刻狀態,在對分布估計中的每個動作返回一個樣本,執行最優動作。然后,機器人接收環境獎勵值并轉換到狀態,將元組保存到經驗池中
。每次更新時,從經驗池均勻采樣,并根據公式更新抓取網絡和判別網絡。
14.2GARL-DQN算法設計14.2.3GARL-DQN的生成對抗網絡建模14.3實驗14.3.1實驗環境搭建為驗證本章算法對于機器人目標物體抓取任務的性能,在V-REP3.5.0動力學仿真軟件中模擬該任務的實驗場景。該軟件內部的運動學模塊可準確地模擬真實機器人的運動軌跡,同時具有重力等物理引擎可模擬真實物體屬性。使用RGB-D相機采集工作空間狀態信息,該相機可以提供RGB圖像以及每個像素的深度信息,并將深度值快速轉換為點云信息用于3D感知。仿真實驗環境如圖14.2所示。工作空間中配置了裝有RG2夾具的UR5機械臂模型,并在工作空間正上方與斜上方45°的位置均安裝RGB-D相機,該相機會在每次機械臂執行完動作后采集圖像信息,提供完整且大小為640×480的深度信息。圖14.2仿真環境場景14.3實驗14.3.2訓練階段為驗證推動與抓取操作之間的協同性,工作空間中被隨機初始化為m個隨機目標塊和n個不同形狀的基本塊,目標塊形狀與顏色隨機匹配,在前1000回合中基本塊的個數為3,后1500回合訓練中基本塊個數為8。并將該算法與以下基線方法進行比較:RAND:不經過監督訓練而采取隨機像素點抓??;Grasp-Only:是一種貪婪的確定性抓取策略,它使用單個FCN網絡進行抓取,該網絡使用二分類(來自試錯)的監督。在此策略下的機器人僅執行抓取動作;VPG:在輸入中通過添加目標掩碼來學習面向目標的推動與抓取策略,是一種使用并行結構作為目標不可知任務預測推動與抓取的功用性圖的方法,在目標掩碼中根據最大Q值執行推動或抓取動作。GIT:一種深度強化學習方法,使用目標分割網絡提取特征來增強機器人感知,基于DQN二分類器進行機器人推動與抓取訓練。14.3實驗14.3.2訓練階段將機器人執行動作的最大閾值設置為30,當動作數超過閾值或所有目標物體均被成功抓取時,則重置環境。計算每50次迭代中的平均成功抓取率并繪制曲線。該過程中目標物體被隨機指定,訓練2500次后繪制訓練性能對比如圖14.3所示。圖14.3訓練階段抓取成功率對比14.3實驗14.3.3測試階段測試階段設置了兩種實驗場景,與上述四種方法進行對比。規則物塊場景中目標物體被其他基本塊緊緊包圍,目標塊與訓練時相同,用于驗證推抓之間的協同;日常工具場景中物體為訓練過程中從未見過的物體,用于驗證算法的泛化能力。(1)規則物塊場景下的算法效率驗證本節設計了如圖6所示的8個測試案例,每個場景包含一個目標物體。對每個案例進行30輪實驗,若機器人在5次內成功抓取目標物體,則記為一輪成功案例,旨在保證抓取成功率的同時,減少平均運動次數。與上述4種方法對比如圖7和圖8所示。由于每個測試場景中目標物體分布不同,故本文算法表現略顯不同,表14.1中展示了不同方法的平均性能對比。平均移動次數定義為方法抓取成功率(%)平均運動次數(次)RAND17.54.7750.60Grasping-only35.04.3250.98VPG70.04.0250.83GIT87.53.6750.90OURS(GARL-DQN)91.53.4060.50表14.1規則物塊案例平均表現
14.3實驗14.3.3測試階段(2)日常工具場景下的模型泛化能力驗證本節設置了如圖9所示的4個測試案例,每個場景中包含不同高度和形狀復雜的日常工具,場景中每個物體被依次設置為目標物體,直接應用訓練階段訓練好的模型進行測試,用于驗證GARL-DQN算法的泛化能力。抓取閾值設置為目標物體的數量。表14.2展示了本方法與其他4種方法的平均性能對比。方法抓取成功率(%)平均運動次數(次)RAND15.515.14Grasping-only34.212.63VPG52.410.81GIT61.39.85OURS(GARL-DQN)85.28.60表14.2日常工具案例平均表現14.3實驗14.3.4測試階段結果分析由規則物塊構建的8種測試場景模擬了真實世界中目標物體被緊緊包圍的場景,由于沒有足夠空間供抓取,用于檢驗GARL-DQN算法中的推抓協同。表14.1展示了8個測試案例的表現,RAND和Grasping-only兩種方法在每個測試案例中都具有較高的運動次數和較低的成功率,抓取成功率在10~35%之間,但運動次數在4.3以上。VPG方法對于每個測試案例有不同的表現,可以體現出來推動動作對抓取動作的影響,減少了運動次數,抓取成功率在60~75%之間,運動次數在4.0左右。GIT采用二分類器來訓練推抓之間的協同作用,每個測試案例的抓取成功率都有提高,同時減少了運動次數,抓取成功率在85%以上,運動次數在3.6左右。而本文采取基于生成對抗網絡的GARL-DQN訓練框架,以3.4次的平均運動次數實現了91.5%的抓取成功率,性能達到最優。14.3實驗14.3.4測試階段結果分析表14.2中展示了日常工具場景中不同算法的表現,用于驗證GARL-DQN算法的泛化能力。RAND和Grasping-only兩種方法策略的完成率很低,即使能夠完成任務,其平均抓取成功率也保持在15-30%之間??傮w成功率仍然較低,對于日常工具場景的泛化能力依然較弱。RADN隨機選擇動作,忽略了雜波環境對目標的影響,從而導致在面對目標運動時出現過多錯誤動作。Grasping-only對于目標物體采取僅抓取策略,雖然對目標周圍的雜波環境有一定改善,但影響較小導致該算法成功率較低。VPG方法僅依靠預測動作的Q值選擇動作,不能有效判斷目標所處的雜波狀態,有較多錯誤抓取動作和冗余推動動作,導致抓取成功率僅在50%左右,較規則物塊場景成功率有明顯降低,原因在于其僅依賴DQN無法實現良好的算法遷移,當機器人面對新環境時,無法很好地將模型應用在新場景中,故導致抓取率降低。同時,平均運動次數將近11次,即無法在一輪中實現全部目標物體的抓取。GIT使
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GA 1812.1-2024銀行系統反恐怖防范要求第1部分:人民幣發行庫
- 購林地定金合同協議
- 購房補充協議合同模板
- 訂制信貨亭合同協議
- 購車合同轉成借款協議
- 設備帶土建合同協議
- 2025幼兒園數學思考能力試題與答案
- 《Reading Helping Each Other;Young Girl Warns Others about Tsunami》教案初中英語八年級上冊北師大版
- 甘肅省蘭州市2024-2025學年八年級上學期期中考試物理試題2【含答案解析】
- 2025年康復醫學專業畢業生考試試卷及答案
- 輔警培訓工作方案
- 南京彭宇案完
- YB-4001.1-2007鋼格柵板及配套件-第1部分:鋼格柵板(中文版)
- 2023年國家重點支持的八大高新技術領域
- 《銷售管理實務》(李寧)011-5 教案 第9課 編制銷售預算
- 東芝空調維修故障代碼
- 中考生物解題策略與技巧(共67張)
- 名著導讀《儒林外史》第1課時示范公開課教學設計【統編人教版九年級語文下冊】
- GB/T 8813-2020硬質泡沫塑料壓縮性能的測定
- GB/T 6177.1-20162型六角法蘭面螺母
- GB 5906-1997塵肺的X線診斷
評論
0/150
提交評論