


下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第五章強化學習選擇題1-5ABCD、ABCD、ABCD、AB、AB6-10BD、D、D、C、C二、判斷題1-5√、×、×、×、√6-10√、×、√、×、√三、簡答題1.簡述強化學習的發展歷程。盡管強化學習是由明斯基于1961年的論文中首次提出,但是這種試錯學習在此之前已經開始發展。目前,大家認為強化學習的來源與兩個領域密切相關:即心理學中的動物學習和最優控制的優化理論。2.請列舉一些深度學習與強化學習的區別。深度學習:一切運用了神經網絡作為參數結構進行優化的機器學習算法。強化學習:不僅能利用現有數據,還可以通過對環境的探索獲得新數據,并利用新數據循環往復地更新迭代現有模型的機器學習算法。學習是為了更好地對環境進行探索,而探索是為了獲取數據進行更好的學習。3.強化學習的要素有哪些?策略:定義了一個特定時刻智能體的行為方式。大概來講,策略是一個從當前感知到的環境狀態到改狀態下采取的動作的一個映射。在某些情況下,策略可能是一個簡單的函數或者是一個查找表,然而在其他情況下,也可能涉及大量的計算,比如搜索過程。回報信號:定義了強化學習問題的目標。每一個時間步,環境反饋給強化學習智能體一個單獨的數字,叫做回報。智能體唯一的目標就是最大化整個運行周期收到的回報總和。值函數:不同于瞬時回報,值函數刻畫了在長期狀態下對于某個狀態或者行為的偏好。粗略來講,一個狀態的值是一個智能體從這個狀態開始一直運行下去能夠得到的期望回報總和。第四個也是最后一個一些強化學習系統的要素是環境模型。環境模型就像一個仿真器,給定一個狀態和動作,模型會預測這個動作導致的下一個狀態和回報。4.請簡要敘述Q-學習算法的基本原理。Q-learning的基本原理是學習一個稱為Q值(Q-function)的函數,用于估計在給定狀態下采取特定行動后可以獲得的未來總回報。Q值可以表示為Q(s,a),其中s表示狀態,a表示行動。通過學習和更新這些Q值,智能體(agent)可以選擇在給定狀態下執行最佳行動。5.請簡要敘述Q-學習算法的算法流程。建立Q表,行是每種狀態,列是每種狀態的行為,值是某狀態下某行為估計獲得的獎勵。每次進行狀態轉移時有e_greedy概率選當前狀態最優方法,有1-e_greedy選隨機方法。選完之后就更新當前狀態下對應所選行為的Q值(估計值)。更新方法:其自身=其自身+學習率*(估計-現實)—>(實際更新=實際未更新+學習率*(預測-實際發生))現實值也是其自身,估計值是選擇當前行為后的獎勵及下一狀態中選擇與當前狀態具有相同行為的Q值。6.什么是動態規劃算法?動態規劃(Dynamicprogramming)是一種在數學、計算機科學和經濟學中使用的,通過把原問題分解為相對簡單的子問題的方式求解復雜問題的方法。7.什么是蒙特卡洛算法?蒙特卡洛算法的應用有哪些?蒙特·卡羅方法(MonteCarlomethod),也稱統計模擬方法,它是一種思想或者方法的統稱,而不是嚴格意義上的算法。蒙特卡羅方法的起源是1777年由法國數學家布豐(ComtedeBuffon)提出的用投針實驗方法求圓周率(具體算法見文末的好文推薦),在20世紀40年代中期,由于計算機的發明結合概率統計理論的指導,從而正式總結為一種數值計算方法,其主要是用隨機數來估算計算問題。蒙特·卡羅算法在數學、增強學習、金融工程學,宏觀經濟學,計算物理學等領域應用廣泛。求解積分問題對被積分函數的變量在某一區間內進行隨機均勻抽樣,然后對抽樣點的函數值求平均,從而可以得到函數積分的近似值。此種方法的理論基礎是概率論的中心極限定理,其不隨積分維數的改變而改變。求解圓周率問題蒙特卡羅方法可用于近似計算圓周率,如本例所示。機器學習蒙特卡洛算法也常用于機器學習,特別強化學習算法。一般情況下,針對得到的樣本數據集創建相對模糊的模型,通過蒙特卡羅方法對于模型中的參數進行選取,使之于原始數據的殘差盡可能的小,從而達到創建模型擬合樣本的目的。金融領域用隨機過程理論進行理論建模,在必要時使用蒙特卡羅算法對模型做數值模擬,比如預測未來收益和走勢,感興趣的讀者可以閱讀好文推薦的內容。當然,一個復雜的問題不可能依靠一個蒙特卡羅模擬就解決,需要大量的其他方法如隨機過程、機器學習相關方法、博弈論涉及的方法等。8.請簡要敘述蒙特卡洛算法的算法流程。蒙特卡羅算法一般分為三個步驟,包括構造隨機的概率的過程,從構造隨機概率分布中抽樣,求解估計量。構造隨機的概率過程對于本身就具有隨機性質的問題,要正確描述和模擬這個概率過程。對于本來不是隨機性質的確定性問題,比如計算定積分,就必須事先構造一個人為的概率過程了。它的某些參數正好是所要求問題的解,即要將不具有隨機性質的問題轉化為隨機性質的問題。如本例中求圓周率的問題,是一個確定性的問題,需要事先構造一個概率過程,將其轉化為隨機性問題,即豆子落在圓內的概率,而π就是所要求的解。從已知概率分布抽樣由于各種概率模型都可以看作是由各種各樣的概率分布構成的,因此產生已知概率分布的隨機變量,就成為實現蒙特卡羅方法模擬實驗的基本手段。如本例中采用的就是最簡單、最基本的(0,1)上的均勻分布,而隨機數是我們實現蒙特卡羅模擬的基本工具。求解估計量實現模擬實驗后,要確定一個隨機變量,作為所要求問題的解,即無偏估計。建立估計量,相當于對實驗結果進行考察,從而得到問題的解。如求出的近似π就認為是一種無偏估計。9.請分析比較動態規劃算法、Q-學習算法和蒙特卡洛算法。蒙特卡羅方法是一種基于采樣的方法,也就是我們采樣得到很多軌跡,然后根據采樣得到的結果平均去算V(s)。動態規劃的使用條件:最優化原理:如果問題的最優解所包含的子問題的解也是最優的,就稱該問題具有最優子結構,即滿足最優化原理。無后效性:即某階段狀態一旦確定,就不受這個狀態以后決策的影響。也就是說,某狀態以后的過程不會影響以前的狀態,只與當前狀態有關。有重疊子問題:即子問題之間是不獨立的,一個子問題在下一階段決策中可能被多次使用到。Q-learning的基本原理是學習一個稱為Q值(Q-function)的函數,用于估計在給定狀態下采取特定行動后可以獲得的未來總回報。Q值可以表示為Q(s,a),其中s表示
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 窗簾行業品牌形象塑造與傳播考核試卷
- 糧油企業生產流程標準化與質量控制考核試卷
- 木地板品牌國際化戰略與市場拓展考核試卷
- 彈射玩具產品創新設計思路與方法考核試卷
- 砼結構構件的預制件疲勞試驗考核試卷
- 紡織品的耐磨性與強度分析考核試卷
- 半導體照明器件的環境適應性測試標準考核試卷
- 線上線下融合的衛浴零售模式探索考核試卷
- 天津城建大學《形勢與政策(5)》2023-2024學年第二學期期末試卷
- 三門峽職業技術學院《基本樂理專業理論教學》2023-2024學年第二學期期末試卷
- 豐田鋒蘭達說明書
- 2023年東莞市人民醫院醫師規范化培訓招生(放射科)考試參考題庫含答案
- 2022年甘肅省張掖市輔警協警筆試筆試模擬考試(含答案)
- 勾頭作業施工方案
- 中醫醫院重癥醫學科建設與管理指南
- 創傷性網胃炎
- LY/T 1556-2000公益林與商品林分類技術指標
- GB/T 3522-1983優質碳素結構鋼冷軋鋼帶
- 主要電氣設備絕緣電阻檢查記錄
- 探析小學數學作業分層設計與評價獲獎科研報告
- 2023年陜西高考理科數學試題
評論
0/150
提交評論