




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
目錄12023/10/7PyTorch簡介2.12.3強化學(xué)習(xí)的開發(fā)環(huán)境2.2PyTorch和TensorFlow2.4
Gym實驗環(huán)境對于從事深度強化學(xué)習(xí)研究的相關(guān)工作人員而言,選擇一個好的工具勢必會事半功倍。。PyTorch是Facebook公司在深度學(xué)習(xí)框架Torch基礎(chǔ)上,使用Python重寫的一個全新的框架。PyTorch還擁有豐富的API,可以快速完成深度神經(jīng)網(wǎng)絡(luò)模型的搭建和訓(xùn)練。22023/10/72.1PyTorch簡介(1)PyTorch:美國互聯(lián)網(wǎng)巨頭Facebook公司使用Python開發(fā)的一個深度學(xué)習(xí)框架;框架設(shè)計理念先進,在調(diào)試、編譯等方面的優(yōu)勢,迅速占領(lǐng)GitHub熱度榜榜首;不是簡單地封裝Lua、Torch,提供Python接口,而是對Tensor之上的所有模塊進行了重構(gòu)。2.1PyTorch簡介(2)3目錄42023/10/7PyTorch簡介2.12.3強化學(xué)習(xí)的開發(fā)環(huán)境2.2PyTorch和TensorFlow2.4
Gym實驗環(huán)境2.2
PyTorch和TensorFlow(1)5Tensorflow創(chuàng)建的是靜態(tài)圖
Tensorflow在定義模型的整個計算圖之后才開始運行機器學(xué)習(xí)模型;PyTorch創(chuàng)建的是動態(tài)圖
PyTorch的計算圖是在運行時創(chuàng)建的,可以隨時定義、隨時更改、隨時執(zhí)行節(jié)點;2.2
PyTorch和TensorFlow(2)6
Tensorflow的學(xué)習(xí)曲線陡峭
使用Tensorflow,需要先理解Tensorflow的一些工作機制(比如會話(session)、占位符(placeholder)等)。PyTorch學(xué)習(xí)曲線簡單
PyTorch更貼近Python語言,建立機器學(xué)習(xí)模型時也更直接、符合人的思維。目錄72023/10/7PyTorch簡介2.12.3強化學(xué)習(xí)的開發(fā)環(huán)境2.2PyTorch和TensorFlow2.4
Gym實驗環(huán)境Windows環(huán)境所需要的系統(tǒng)軟件:test目錄文件為環(huán)境測試用例。相關(guān)軟件的下載網(wǎng)址:Visual:
https:///downloadAnaconda:
https://Gym:
gitclonehttps:///openai/gym.git(需要安裝Git)2.3強化學(xué)習(xí)的開發(fā)環(huán)境(1)Windows環(huán)境步驟第一步:在windows下,點擊執(zhí)行,安裝VisualStudio。
安裝時只需勾選“使用C++的桌面開發(fā)”,等待安裝完成后重啟電腦。2.3強化學(xué)習(xí)的開發(fā)環(huán)境(2)Windows環(huán)境步驟第二步:在windows下,點擊執(zhí)行,安裝Anaconda。注:Anaconda安裝完成后,通過窗口菜單“AnacondaPrompt”進入Anaconda環(huán)境。使用清華鏡像:
pipconfigsetglobal.index-url/simple2.3強化學(xué)習(xí)的開發(fā)環(huán)境(2)Windows環(huán)境步驟在Anaconda環(huán)境中可以創(chuàng)建和維護自己的環(huán)境:2.3強化學(xué)習(xí)的開發(fā)環(huán)境(3)創(chuàng)建環(huán)境:condacreate--namerlpython=3.7
安裝swig:
condainstallswig(必做)查看環(huán)境:condaenvlist激活環(huán)境:condaactivaterl退出環(huán)境:condadeactivate刪除環(huán)境:condaremove–-namerl–allWindows環(huán)境步驟第三步:在Anacondarl下,執(zhí)行“pipinstalljupyter”,安裝JupyterNotebook。
根據(jù)需要可以安裝其他軟件包:
繪圖庫:
pipinstallmatplotlib
數(shù)據(jù)統(tǒng)計庫:pipinstallpanda進入安裝測試目錄“實驗代碼”,執(zhí)行“jupyternotebook”命令,測試安裝是否成功。2.3強化學(xué)習(xí)的開發(fā)環(huán)境(4)Windows環(huán)境步驟第四步:在Anacondarl下,進入目錄“Gym”,執(zhí)行:
pipinstall-e“.[all]”
或pipinstall-egym[all]進入安裝測試目錄“test”,執(zhí)行“jupyternotebook”命令,測試Gym安裝是否成功。2.3強化學(xué)習(xí)的開發(fā)環(huán)境(5)Windows環(huán)境步驟第五步:進入官網(wǎng)的getstarted頁面。根據(jù)自己的環(huán)境配置情況進行選擇。執(zhí)行“RunthisCommand”中的命令即可安裝。進入安裝測試目錄“test”,執(zhí)行“jupyternotebook”命令,測試PyTorch安裝是否成功。
2.3強化學(xué)習(xí)的開發(fā)環(huán)境(6)
15Linux和Mac環(huán)境Anaconda搭建進入Anaconda的官網(wǎng)https://選擇所需系統(tǒng)的版本下載;執(zhí)行bashAnaconda3-2019.10-Linux-x86_64.sh(以下載的文件名為準(zhǔn));安裝過程中會提示是否需要將安裝路徑寫入到環(huán)境變量中,輸入“yes”回車執(zhí)行。JupyterNotebook、gym以及PyTorch的安裝與Windows相同。*2.3強化學(xué)習(xí)的開發(fā)環(huán)境(7)*2.3強化學(xué)習(xí)的開發(fā)環(huán)境(8)16Anaconda搭建環(huán)境的創(chuàng)建、維護和管理Anaconda安裝成功后,可以創(chuàng)建新環(huán)境并對新環(huán)境進行基本的環(huán)境維護和環(huán)境管理。環(huán)境管理部分都采用命令行方式。Linux和Mac用戶直接打開終端即可;
Windows用戶在開始菜單中打開“AnacondaPrompt”進入命令行模式。目錄172023/10/7PyTorch簡介2.12.3強化學(xué)習(xí)的開發(fā)環(huán)境2.2PyTorch和TensorFlow2.4
Gym實驗環(huán)境強化學(xué)習(xí)中經(jīng)典的實驗場景:Mountain-Car,Cart-Pole,SpaceInvaders,Go,LunarLander,MuJoCo等。由于DRL的興起,各種新的復(fù)雜的實驗場景不斷涌出,出現(xiàn)一系列優(yōu)秀的實驗平臺:OpenAIGym,OpenAIBaselines;MuJoCo,rllab,TORCS,PySC2。2.4Gym實驗環(huán)境(1)OpenAIGym的安裝
OpenAIGym的官網(wǎng)地址為/,源碼地址為/openai/gym。Gym的完整安裝需要提前安裝MuJoCo。
MuJoCo官網(wǎng)。官網(wǎng)的license界面注冊獲得權(quán)限之后再下載安裝。2.4Gym實驗環(huán)境(2)2.4Gym實驗環(huán)境(3)經(jīng)典控制:CartPole-v1MountainCarContinuous-v0MountainCar-v0Acrobot-v1Pendulum-v0Box2D:Box2D中的連續(xù)控制任務(wù)BipedalWalker-v2BipedalWalkerHardcore-v2CarRacing-v0LunarLander-v2LunarLanderContinuous-v22.4Gym實驗環(huán)境(4)Atari:Atari2600游戲Alien-v0Asterix-ram-v0Atlantis-ram-v0Breakout-v0Seaquest-v0BattleZone-ram-v0Boxing-ram-v0Enduro-v0FishningDerby-v0SpaceInvaders-v02.4Gym實驗環(huán)境(5)Robotics:抓取機器人完成基于目標(biāo)的任務(wù)2.4Gym實驗環(huán)境(6)MuJoCoMoJoCo是一個物理模擬器,可以用于機器人控制優(yōu)化等研究;官方網(wǎng)站為:/index.html;注意:MoJoCo需要license,可以在
https://www.roboti.us/license.html
上申請試用30天的Licence。
2.4Gym實驗環(huán)境(7)MoJoCo:快速實體任務(wù)中的連續(xù)控制任務(wù)2.4Gym實驗環(huán)境(8)Gym環(huán)境體驗2.4Gym實驗環(huán)境(9)Gym中的重要函數(shù)env=gym.make(‘CartPole-v0’):創(chuàng)建CartPole環(huán)境;env.reset():每一個情節(jié)結(jié)束后,agent初始化;env.render():圖像引擎用來顯示環(huán)境中的物理圖像;env.step():用來描述agent與環(huán)境交互的所有信息:輸入是動作a,輸出是下一個狀態(tài),立即獎賞和是否終止等。
2.4Gym實驗環(huán)境(10)Gym的使用使用下面代碼可以簡單的使用gym環(huán)境。
importgymenv=gym.make('MountainCar-v0')env.reset()env.render()env.close()
如果想看看別的環(huán)境是什么樣子的,可以將MountainCar-v0替換成CartPole-v0,Pendulum-v0,Acrobot-v1等,這些環(huán)境都來自Env基類。
282023/10/72.4Gym實驗環(huán)境(11)搭建掃地機器人的Gym環(huán)境利用Gym搭建一個掃地機器人環(huán)境。該環(huán)境描述如下:在一個的掃地機器人環(huán)境中,有一個垃圾和一個充電樁,到達[5,4]處機器人撿到垃圾,并結(jié)束游戲,同時獲得+5的獎賞;左下角[1,1]處有一個充電樁,機器人到達充電樁可以充電,且不再行走,獲得+1的獎賞。環(huán)境中間[3,3]處有一個障礙物,機器人無法通過。
292023/10/72.4Gym實驗環(huán)境(12)1.安裝
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 小區(qū)門崗施工合同范本
- 特種租賃合同范本
- 個人錢財贈與合同范本
- 八下第二單元《公民的基本權(quán)利義務(wù)》知識競賽教學(xué)案例
- 2025商務(wù)合作合同范例標(biāo)準(zhǔn)版
- 2025某省汽車改裝服務(wù)合同
- 《2025年度物流管理系統(tǒng)軟件采購與使用合同》
- 輕質(zhì)磚隔墻合同范本
- 《2025年企業(yè)合同續(xù)簽流程與關(guān)鍵注意事項》
- 2025年建設(shè)項目勘察設(shè)計合同示范文本
- 馮姓姓氏歷史起源研究報告
- 體檢護士禮儀規(guī)范
- 日本動漫文化之旅
- 2025-2030中國真空結(jié)晶器行業(yè)市場現(xiàn)狀供需分析及投資評估規(guī)劃分析研究報告
- GB/T 20424-2025重有色金屬精礦產(chǎn)品中有害元素的限量規(guī)范
- 輸油管道安全培訓(xùn)
- 2025年海南重點項目-300萬只蛋雞全產(chǎn)業(yè)鏈項目可行性研究報告
- 使用錯誤評估報告(可用性工程)模版
- TSG 23-2021 氣瓶安全技術(shù)規(guī)程 含2024年第1號修改單
- HSF無有害物質(zhì)管理程序-最全版
- 附件1.醫(yī)院會計科目設(shè)置表(1009)
評論
0/150
提交評論