強化學習基礎理論及算法課件-PPO算法與公式推導_第1頁
強化學習基礎理論及算法課件-PPO算法與公式推導_第2頁
強化學習基礎理論及算法課件-PPO算法與公式推導_第3頁
強化學習基礎理論及算法課件-PPO算法與公式推導_第4頁
強化學習基礎理論及算法課件-PPO算法與公式推導_第5頁
已閱讀5頁,還剩14頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、強化學習基礎理論及算法課件PPO算法與公式推導獲得獎勵先來玩一個小游戲,雖然短,但是經歷了好多過程:飛船每一步行動都會獲得不同的結果(獎勵)一個完整的過程,通常叫做episod,整個生命周期的獎勵:網絡的輸入與輸出一次游戲的記錄結果:包括了每一步的狀態與行動(trajectory):每一步如何走才能得到更多的獎勵呢?這就需要訓練好神經網絡了!游戲的行為是如何產生的呢?其中是游戲自帶的是模型輸出的結果其中獎勵是由當前第一步的action與state共同決定的(規則,游戲提供)當前模型恰好得到了如下的游戲記錄:希望的目標玩游戲不是目的,先有一個小目標:其實就是要訓練好模型,得到最多的獎勵,但為什么

2、是期望呢?這一系列過程,帶有太多隨機性了,即便相同的得到的action也可能不同希望的目標目標函數如何來進行求解呢?按照大數定律的思想,直接窮舉所有的可能性就好了:希望的目標表示當前序列可能性,為獎勵:計算梯度:等會!這是扯啥子東西呢。繼續來看一下它的推導過程嘮十塊錢數學公式:稍微轉換一下就好求解了:最終要求解的梯度終極版:更新參數:(梯度上升)就是這個鐵三角關系,來訓練網絡模型:如何獲得這么多游戲記錄呢?一直玩就好了!第一場,第二場,第三場。每場游戲記錄好各自情況:及獎勵:把數據全部帶入求解即可:baseline總的獎勵(一場游戲總共獲得)看起來就像一個權重項:我們希望通過獎勵和懲罰來完成訓

3、練,但是有些游戲可能只有獎勵,這回 可以對總的獎勵來一個去均值操作!On policy 與 Off policyOn policy :就是訓練數據由當前agent與不斷環境交互得到的(勤工儉學)Off policy:就是自己可以歇著了,找個打工的幫我跟環境交互得到結果 剛才算出來那兄弟是哪一個呢?為什么需要Off policy?On policy 與 Off policy如果使用On policy策略訓練起來就太慢了,做一批數據,迭代一次。會看到大部分時間都在等著這個agent在玩,它倒是玩開心了,網絡沒咋變。 能不能給我找個打工的,讓他去玩,把得到的數據給我就好了呢?這其實就是Off pol

4、icy的思想了,先找一個去替代Importance Sampling準備玩一個貍貓換太子,梯度策略中需要我們不斷的產生樣本數據:從P這個分布中不斷采樣X,在把X帶入到f(x)中,再求f(x)的期望值 貍貓P 準備上場,來把太子P換下來:利用公式,其中可當做權重項Importance Sampling第一個事,咱這個貍貓得長得差不多點(P與P 要盡可能接近)從P 中sample出數據供來進行訓練(這一批數據可以訓練好多次)用貍貓上場:條件限制貍貓和太子要相近(KL-divergence):直觀解釋:,實際中是它倆經過網絡的預測結果盡可能差不多這個貍貓去哪找呢?大象的左耳朵最像什么?直接拿要訓練模型的前一次 迭代時的參數不就可以了嘛!(PPO2版本中的限制條件)案例解讀:ActorCritic組合Critic的作用:(對捐款這件事,好比當年的葫蘆娃,海爾兄弟,哪吒)通俗解釋就是讓模型知道現在這個水平該干啥(級別越高也得打越高級別的怪,這樣才能收益更大!)還記得最開始咱們的約定嘛:其中的b就是Critic網絡要學

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論