


下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
文末送書如何使用深度強化學習算法解決實際問題在使用深度強化學習(DeepReinforcementLearning,DRL)算法解決實際問題的過程中,明確任務需求并初步完成問題定義后,就可以為相關任務選擇合適的DRL算法了。以DeepMind的里程碑工作AlphaGo為起點,每年各大頂級會議DRL方向的論文層出不窮,新的DRL算法如雨后春筍般不斷涌現,大有“亂花漸欲迷人眼”之勢。然而,落地工作中的算法選擇并不等同于在這個急劇膨脹的“工具箱”中做大海撈針式的一對一匹配,而是需要根據任務自身的特點從DRL算法本源出發進行由淺入深、粗中有細的篩選和迭代。在介紹具體方法之前,筆者先嘗試按照自己的理解梳理近年來DRL領域的發展脈絡。1DRL算法的發展脈絡盡管DRL算法已經取得了長足進步,但筆者認為其尚未在理論層面取得質的突破,而只是在傳統強化學習理論基礎上引入深度神經網絡,并做了一系列適配和增量式改進工作。總體上,DRL沿著Model-Based和Model-Free兩大分支發展。前者利用已知環境模型或者對未知環境模型進行顯式建模,并與前向搜索(LookAheadSearch)和軌跡優化(TrajectoryOptimization)等規劃算法結合達到提升數據效率的目的。作為當前學術界的研究熱點,Model-BasedDRL尚未在實踐中得到廣泛應用,這是由于現實任務的環境模型通常十分復雜,導致模型學習的難度很高,并且建模誤差也會對策略造成負面影響。在筆者看來,任何Model-FreeDRL算法都可以解構為“基本原理—探索方式—樣本管理—梯度計算”的四元核心組件。其中按照基本原理,Model-Free
DRL又存在兩種不同的劃分體系,即Value-Based和Policy-Based,以及Off-Policy和On-Policy。如圖1所示,DQN、DDPG和A3C作為這兩種彼此交織的劃分體系下的經典算法框架,構成了DRL研究中的重要節點,后續提出的大部分新算法基本都是立足于這三種框架,針對其核心組件所進行的迭代優化或者拆分重組。圖1
Model-FreeDRL的發展脈絡和四元核心組件解構方法圖1中幾個關鍵術語的解釋是:Off-Policy指算法中采樣策略與待優化策略不同;On-Policy指采樣策略與待優化策略相同或差異很小;Value-Based指算法直接學習狀態-動作組合的值估計,沒有獨立策略;Policy-Based指算法具有獨立策略,同時具備獨立策略和值估計函數的算法又被稱為Actor-Critic算法。關于上述Model-Free
DRL算法的四元核心組件,其中:基本原理層面依然進展緩慢,但卻是DRL算法將來大規模推廣的關鍵所在;探索方式的改進使DRL算法更充分地探索環境,以及更好地平衡探索和利用,從而有機會學到更好的策略;樣本管理的改進有助于提升DRL算法的樣本效率,從而加快收斂速度,提高算法實用性;梯度計算的改進致力于使每一次梯度更新都更穩定、無偏和高效。總體而言,DRL算法正朝著通用化和高效化的方向發展,期待未來會出現某種“超級算法”,能夠廣泛適用于各種類型的任務,并在絕大多數任務中具有壓倒式的性能優勢
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- T/CMES 15001-2023自行式自上料攪拌機通用技術要求
- T/CHES 96-2023河口監測浮標技術條件
- T/CHES 91-2023連續磁性陰離子交換水處理技術規范
- T/CEMIA 005-2018光伏單晶硅生長用石英坩堝生產規范
- T/CECS 10336-2023地面防滑性能分級及試驗方法
- T/CECS 10173-2022皮芯結構熱壓交聯高分子胎基濕鋪防水卷材
- T/CECS 10065-2019綠色建材評價采光系統
- T/CECA-G 0282-2024鋼結構工業建筑碳排放計算標準
- T/CCSAS 036-2023非均相分離單元操作機械化、自動化設計方案指南
- T/CCOA 48-2023高直鏈淀粉玉米
- 山東省高考志愿規劃
- 籃球研究報告
- 機械通氣基礎知識與常見模式
- 家具借款借條模板
- 預防肥胖幼兒園
- 淚道置管的護理課件
- 造影劑腦病護理查房課件
- 電力鐵塔制造培訓資料
- 采購詢價單模板
- 聯合體內部協議
- 海南省近5年中考語文作文真題及模擬題匯編(含參考例文)
評論
0/150
提交評論