




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 ML基于值迭代的基于值迭代的MDP算法求解最優(yōu)算法求解最優(yōu)策略策略姓名:陳麗 學(xué)號(hào):E13301110LOGO參考文獻(xiàn)v 石軻,基于馬爾可夫決策過程理論的Agent決策問題研究,中國科學(xué)技術(shù)大學(xué),2010v 孫湧,仵博, 馮延蓬,基于策略迭代和值迭代的POMDP算法,計(jì)算機(jī) 研究與發(fā)展,2008年v 劉克,實(shí)用馬爾可夫決策過程M 北 京 :清華大學(xué)出版社 ,2004 v 魯慶,基于柵格法的移動(dòng)機(jī)器人路徑規(guī)劃研究,電腦與信息技術(shù),2007年LOGO問題背景描述v 利用柵格法對(duì)空間劃分,搜索一條從起始柵格到終點(diǎn)柵格的路徑,構(gòu)成機(jī)器人運(yùn)動(dòng)的可行路徑。目標(biāo)、吸收狀態(tài)障礙物禁止、吸收狀態(tài)實(shí)驗(yàn)內(nèi)容:基于
2、值迭代的MDP算法,找出從某狀態(tài)到達(dá)目標(biāo)狀態(tài)時(shí),使?fàn)顟B(tài)值函數(shù)達(dá)到最大值的最優(yōu)策略。LOGO馬爾可夫決策過程(MDP)v 基本的MDP模型是一個(gè)四元組:。v 例如P(s|s,a),顯然 0P(s|s,a)1,并且v 策略 :指決策者對(duì)于特定狀態(tài),應(yīng)選擇的動(dòng)作。v MDP決策的策略是將狀態(tài)映射到動(dòng)作,同時(shí)滿足使Agent選擇的動(dòng)作能夠獲得環(huán)境報(bào)酬的累計(jì)值最大。1a)s,|P(sSsLOGO值函數(shù)v 值函數(shù):指對(duì)于特定策略和某一狀態(tài),執(zhí)行該策略直到達(dá)到吸收狀態(tài),所獲得的累計(jì)回報(bào)的期望。v 值函數(shù)為:v 其中為折扣因子,其目標(biāo)是讓期望值有界 )V(sP R(s) :V(s)sas, | samaxLO
3、GO問題陳述v (1)狀態(tài)空間 S:小機(jī)器人有11個(gè)活動(dòng)狀態(tài),編號(hào)010;v (2)動(dòng)作空間 A: N, E, S, W ,小機(jī)器人有北,東,南,西四個(gè)可選動(dòng)作。v (3)狀態(tài)轉(zhuǎn)移概率模型 P :每個(gè)動(dòng)作以0.8的概率到達(dá)動(dòng)作期望狀態(tài),分別以0.1的概率到達(dá)動(dòng)作的兩個(gè)側(cè)向狀態(tài)。v (4)狀態(tài)轉(zhuǎn)移回報(bào)模型R:R(10) = +1.0, R(9) = -1.0,R(其他狀態(tài)) = -0.02。v (5)=0.99v (6)定義狀態(tài)10和9為吸收狀態(tài),第一次到達(dá)吸收狀態(tài)時(shí),獲得對(duì)應(yīng)吸收狀態(tài)回報(bào);LOGO問題陳述v 例如P(6)|(5),N = 0.8,P(8)|(5),N = 0.1,P(3)|(5
4、),N = 0.1, P(其他狀態(tài))|(5),N = 0.0。目標(biāo)、吸收狀態(tài)禁止、吸收狀態(tài)LOGO算法設(shè)計(jì)VI algrithm end 16 /whileend 15 /ifend 14return 13THRESHOLD) eration DeltaOneIt ( if 12foreach / end 11V(s)s)(VHistory(eration DeltaOneIt 10)V(sP R(s) :V(s) 9V(s): )VHistory(s 8do StateSpacein 10 and 9 stateexcept seach for 70 :eration DeltaOneIt
5、6) true( while51.0:V100 . 1: V9 initialize 4foreach / end 30 : V(s) 2do StateSpacein seach for 1Iteratin Value algrithm 02sas,| samax,一輪迭代后,當(dāng)各狀態(tài)的V值變化量小于閥值時(shí),我們稱此時(shí)找到問題的最優(yōu)策略;LOGO實(shí)驗(yàn)結(jié)果v設(shè)立閾值THRESHOLD為0.0001,算法經(jīng)過12輪迭代結(jié)束;LOGO結(jié)果分析v 方格中顯示對(duì)應(yīng)狀態(tài)的V值。LOGO算法改進(jìn)learning offline-Q algrithm end 20 /whileend 19 /ifend 1
6、8return 17THRESHOLD) eration DeltaOneIt ( if 16foreachouter / end 15foreachinner / end 14a)Q(s,a)s,(QHistory(eration DeltaOneIt 13)a,Q(sP a)s,|R(sP :a)Q(s, 12a)Q(s,: a),QHistory(s 11do eActionSpacin aeach for 10do StateSpacein seach for 90 :eration DeltaOneIt 8) true( while7foreachouter / end 6foreachinner ./ end 50 : a)Q(s, 4do eActionSpacin aeach for 3do StateSpacein seach for 2learing offline-Q algrithm 12sas,| sasas,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 農(nóng)藥批發(fā)商的采購策略優(yōu)化考核試卷
- 盾構(gòu)機(jī)施工中的安全與健康管理考核試卷
- 電氣設(shè)備在智能電網(wǎng)儲(chǔ)能設(shè)備管理中的應(yīng)用考核試卷
- 炸藥及火工品的安全生產(chǎn)標(biāo)準(zhǔn)化與規(guī)范化考核試卷
- 廣告創(chuàng)意與情感營銷結(jié)合考核試卷
- 海洋工程裝備海洋環(huán)境保護(hù)策略考核試卷
- 湖南省新高考教學(xué)教研聯(lián)盟2025屆高三下學(xué)期第二次聯(lián)考語文試卷及參考答案
- 上海市虹口區(qū)2025屆高三高考二模思想政治試卷(含答案)
- 2025如何撰寫商業(yè)店鋪?zhàn)赓U合同協(xié)議書
- 2025版合同:國際專利技術(shù)轉(zhuǎn)讓協(xié)議
- 《照明線路的安裝與檢修》課程標(biāo)準(zhǔn)
- 設(shè)備人員三級(jí)安全教育考試題與答案
- 自考07887平面設(shè)計(jì)(12-19)真題試卷
- 2023年長春醫(yī)學(xué)高等專科學(xué)校單招筆試職業(yè)技能考試題庫及答案解析
- 高大模板工程驗(yàn)收表
- (中職)Photoshop基礎(chǔ)實(shí)用教程全冊(cè)教案2022-2023學(xué)年
- 2022民族娃娃IP運(yùn)營規(guī)劃-55P
- 酒店旅館防偷拍攝像頭排查指引
- GB/T 2423.20-2014環(huán)境試驗(yàn)第2部分:試驗(yàn)方法試驗(yàn)Kd:接觸點(diǎn)和連接件的硫化氫試驗(yàn)
- GB/T 21655.2-2019紡織品吸濕速干性的評(píng)定第2部分:動(dòng)態(tài)水分傳遞法
- 地震災(zāi)害分類標(biāo)準(zhǔn)及分級(jí)響應(yīng)表
評(píng)論
0/150
提交評(píng)論