




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第10章-強化學習第10章-強化學習第10章-強化學習2020/11/20強化學習史忠植2內容提要引言強化學習模型動態規劃蒙特卡羅方法時序差分學習Q學習強化學習中的函數估計應用內容提要引言強化學習模型動態規劃蒙特卡羅方法時序差分學習Q學習強化學習中的函數估計應用2024/11/132強化學習史忠植引言
人類通常從與外界環境的交互中學習。所謂強化(reinforcement)學習是指從環境狀態到行為映射的學習,以使系統行為從環境中獲得的累積獎勵值最大。在強化學習中,我們設計算法來把外界環境轉化為最大化獎勵量的方式的動作。我們并沒有直接告訴主體要做什么或者要采取哪個動作,而是主體通過看哪個動作得到了最多的獎勵來自己發現。主體的動作的影響不只是立即得到的獎勵,而且還影響接下來的動作和最終的獎勵。試錯搜索(trial-and-errorsearch)和延期強化(delayedreinforcement)這兩個特性是強化學習中兩個最重要的特性。
2024/11/133強化學習史忠植引言
強化學習技術是從控制理論、統計學、心理學等相關學科發展而來,最早可以追溯到巴甫洛夫的條件反射實驗。
但直到上世紀八十年代末、九十年代初強化學習技術才在人工智能、機器學習和自動控制等領域中得到廣泛研究和應用,并被認為是設計智能系統的核心技術之一。特別是隨著強化學習的數學基礎研究取得突破性進展后,對強化學習的研究和應用日益開展起來,成為目前機器學習領域的研究熱點之一。2024/11/134強化學習史忠植引言強化思想最先來源于心理學的研究。1911年Thorndike提出了效果律(LawofEffect):一定情景下讓動物感到舒服的行為,就會與此情景增強聯系(強化),當此情景再現時,動物的這種行為也更易再現;相反,讓動物感覺不舒服的行為,會減弱與情景的聯系,此情景再現時,此行為將很難再現。換個說法,哪種行為會“記住”,會與刺激建立聯系,取決于行為產生的效果。動物的試錯學習,包含兩個含義:選擇(selectional)和聯系(associative),對應計算上的搜索和記憶。所以,1954年,Minsky在他的博士論文中實現了計算上的試錯學習。同年,Farley和Clark也在計算上對它進行了研究。強化學習一詞最早出現于科技文獻是1961年Minsky的論文“StepsTowardArtificialIntelligence”,此后開始廣泛使用。1969年,Minsky因在人工智能方面的貢獻而獲得計算機圖靈獎。2024/11/135強化學習史忠植引言1953到1957年,Bellman提出了求解最優控制問題的一個有效方法:動態規劃(dynamicprogramming)Bellman于1957年還提出了最優控制問題的隨機離散版本,就是著名的馬爾可夫決策過程(MDP,Markovdecisionprocesse),1960年Howard提出馬爾可夫決策過程的策略迭代方法,這些都成為現代強化學習的理論基礎。1972年,Klopf把試錯學習和時序差分結合在一起。1978年開始,Sutton、Barto、Moore,包括Klopf等對這兩者結合開始進行深入研究。1989年Watkins提出了Q-學習[Watkins1989],也把強化學習的三條主線扭在了一起。1992年,Tesauro用強化學習成功了應用到西洋雙陸棋(backgammon)中,稱為TD-Gammon。2024/11/136強化學習史忠植內容提要引言強化學習模型動態規劃蒙特卡羅方法時序差分學習Q學習強化學習中的函數估計應用2024/11/137強化學習史忠植主體強化學習模型i:inputr:rewards:statea:action狀態sisi+1ri+1獎勵ri環境動作
aia0a1a2s0s1s2s32024/11/138強化學習史忠植描述一個環境(問題)Accessiblevs.inaccessibleDeterministicvs.non-deterministicEpisodicvs.non-episodicStaticvs.dynamicDiscretevs.continuousThemostcomplexgeneralclassofenvironmentsareinaccessible,non-deterministic,non-episodic,dynamic,andcontinuous.2024/11/139強化學習史忠植強化學習問題Agent-environmentinteractionStates,Actions,RewardsTodefineafiniteMDPstateandactionsets:SandAone-step“dynamics”definedbytransitionprobabilities(MarkovProperty):rewardprobabilities:EnvironmentactionstaterewardRLAgent2024/11/1310強化學習史忠植與監督學習對比ReinforcementLearning–Learnfrominteractionlearnfromitsownexperience,andtheobjectiveistogetasmuchrewardaspossible.Thelearnerisnottoldwhichactionstotake,butinsteadmustdiscoverwhichactionsyieldthemostrewardbytryingthem.RLSystemInputsOutputs(“actions”)TrainingInfo=evaluations(“rewards”/“penalties”)SupervisedLearning–Learnfromexamplesprovidedbyaknowledgableexternalsupervisor.2024/11/1311強化學習史忠植強化學習要素Policy:stochasticruleforselectingactionsReturn/Reward:thefunctionoffuturerewardsagenttriestomaximizeValue:whatisgoodbecauseitpredictsrewardModel:whatfollowswhatPolicyRewardValueModelofenvironmentIsunknownIsmygoalIsIcangetIsmymethod2024/11/1312強化學習史忠植在策略Π下的Bellman公式Thebasicidea:So:
Or,withouttheexpectationoperator:isthediscountrate2024/11/1313強化學習史忠植Bellman最優策略公式其中:V*:狀態值映射S:環境狀態R:獎勵函數P:狀態轉移概率函數:折扣因子2024/11/1314強化學習史忠植馬爾可夫決策過程
MARKOVDECISIONPROCESS
由四元組<S,A,R,P>定義。
環境狀態集S
系統行為集合A
獎勵函數R:S×A→?
狀態轉移函數P:S×A→PD(S)
記R(s,a,s′)為系統在狀態s采用a動作使環境狀態轉移到s′獲得的瞬時獎勵值;記P(s,a,s′)為系統在狀態s采用a動作使環境狀態轉移到s′的概率。2024/11/1315強化學習史忠植馬爾可夫決策過程
MARKOVDECISIONPROCESS馬爾可夫決策過程的本質是:當前狀態向下一狀態轉移的概率和獎勵值只取決于當前狀態和選擇的動作,而與歷史狀態和歷史動作無關。因此在已知狀態轉移概率函數P和獎勵函數R的環境模型知識下,可以采用動態規劃技術求解最優策略。而強化學習著重研究在P函數和R函數未知的情況下,系統如何學習最優行為策略。2024/11/1316強化學習史忠植MARKOVDECISIONPROCESSCharacteristicsofMDP:asetofstates:Sasetofactions:Aarewardfunction:R:SxA
RAstatetransitionfunction:T:SxA
∏(S)
T(s,a,s’):probabilityoftransitionfromstos’usingactiona2024/11/1317強化學習史忠植馬爾可夫決策過程
MARKOVDECISIONPROCESS2024/11/1318強化學習史忠植MDPEXAMPLE:TransitionfunctionStatesandrewardsBellman
Equation:(Greedypolicyselection)2024/11/1319強化學習史忠植MDPGraphicalRepresentationβ,α:T(s,action,s’)SimilaritytoHiddenMarkovModels(HMMs)2024/11/1320強化學習史忠植ReinforcementLearning
…DeterministictransitionsStochastictransitionsistheprobabilitytoreachingstatejwhentakingactionainstateistart3211234+1-1Asimpleenvironmentthatpresentstheagentwithasequentialdecisionproblem:Movecost=0.04(Temporal)creditassignmentproblemsparsereinforcementproblemOfflinealg:actionsequencesdeterminedexanteOnlinealg:actionsequencesisconditionalonobservationsalongtheway;Importantinstochasticenvironment(e.g.jetflying)2024/11/1321強化學習史忠植ReinforcementLearning
…M=0.8indirectionyouwanttogo0.2inperpendicular0.1left0.1rightPolicy:mappingfromstatestoactions3211234+1-10.7053211234+1-1
0.8120.762
0.868
0.912
0.660
0.655
0.611
0.388Anoptimalpolicyforthestochasticenvironment:utilitiesofstates:EnvironmentObservable(accessible):perceptidentifiesthestatePartiallyobservableMarkovproperty:Transitionprobabilitiesdependonstateonly,notonthepathtothestate.Markovdecisionproblem(MDP).PartiallyobservableMDP(POMDP):perceptsdoesnothaveenoughinfotoidentifytransitionprobabilities.2024/11/1322強化學習史忠植動態規劃DynamicProgramming動態規劃(dynamicprogramming)的方法通過從后繼狀態回溯到前驅狀態來計算賦值函數。動態規劃的方法基于下一個狀態分布的模型來接連的更新狀態。強化學習的動態規劃的方法是基于這樣一個事實:對任何策略π和任何狀態s,有(10.9)式迭代的一致的等式成立π(a|s)是給定在隨機策略π下狀態s時動作a的概率。π(s→s'|a)是在動作a下狀態s轉到狀態s'的概率。這就是對Vπ的Bellman(1957)等式。2024/11/1323強化學習史忠植動態規劃
DynamicProgramming-ProblemAdiscrete-timedynamicsystemStates{1,…,n}+terminationstate0ControlU(i)TransitionProbabilitypij(u)AccumulativecoststructurePolicies2024/11/1324強化學習史忠植FiniteHorizonProblemInfiniteHorizonProblemValueIteration動態規劃
DynamicProgramming–IterativeSolution
2024/11/1325強化學習史忠植動態規劃中的策略迭代/值迭代policyevaluationpolicyimprovement“greedification”PolicyIterationValueIteration2024/11/1326強化學習史忠植動態規劃方法TTTTTTTTTTTTT2024/11/1327強化學習史忠植自適應動態規劃(ADP)Idea:usetheconstraints(statetransitionprobabilities)betweenstatestospeedlearning.Solve
=valuedetermination.Nomaximizationoveractionsbecauseagentispassiveunlikeinvalueiteration.usingDPLargestatespacee.g.Backgammon:1050equationsin1050variables2024/11/1328強化學習史忠植ValueIterationAlgorithmANALTERNATIVEITERATION:(Singh,1993)(Importantformodelfreelearning)StopIterationwhenV(s)differslessthan?.Policydifferenceratio=<2?γ/(1-γ)
(Williams&Baird1993b)2024/11/1329強化學習史忠植PolicyIterationAlgorithm
Policiesconvergefasterthanvalues.Whyfasterconvergence?
2024/11/1330強化學習史忠植動態規劃DynamicProgramming典型的動態規劃模型作用有限,很多問題很難給出環境的完整模型。仿真機器人足球就是這樣的問題,可以采用實時動態規劃方法解決這個問題。在實時動態規劃中不需要事先給出環境模型,而是在真實的環境中不斷測試,得到環境模型。可以采用反傳神經網絡實現對狀態泛化,網絡的輸入單元是環境的狀態s,
網絡的輸出是對該狀態的評價V(s)。2024/11/1331強化學習史忠植沒有模型的方法
ModelFreeMethodsModelsoftheenvironment:T:SxA
∏(S)
andR:SxARDoweknowthem?Dowehavetoknowthem?MonteCarloMethodsAdaptiveHeuristicCriticQLearning2024/11/1332強化學習史忠植蒙特卡羅方法
MonteCarloMethods
蒙特卡羅方法不需要一個完整的模型。而是它們對狀態的整個軌道進行抽樣,基于抽樣點的最終結果來更新賦值函數。蒙特卡羅方法不需要經驗,即從與環境聯機的或者模擬的交互中抽樣狀態、動作和獎勵的序列。聯機的經驗是令人感興趣的,因為它不需要環境的先驗知識,卻仍然可以是最優的。從模擬的經驗中學習功能也很強大。它需要一個模型,但它可以是生成的而不是分析的,即一個模型可以生成軌道卻不能計算明確的概率。于是,它不需要產生在動態規劃中要求的所有可能轉變的完整的概率分布。2024/11/1333強化學習史忠植MonteCarlo方法TTTTTTTTTTTTTTTTTTTT2024/11/1334強化學習史忠植蒙特卡羅方法
MonteCarloMethods
Idea:HoldstatisticsaboutrewardsforeachstateTaketheaverageThisistheV(s)Basedonlyonexperience
Assumesepisodictasks(Experienceisdividedintoepisodesandallepisodeswillterminateregardlessoftheactionsselected.)Incrementalinepisode-by-episodesensenotstep-by-stepsense.2024/11/1335強化學習史忠植MonteCarlo策略評價Goal:learnVp(s)
underPandRareunknowninadvanceGiven:
somenumberofepisodesunderpwhichcontainsIdea:AveragereturnsobservedaftervisitstosEvery-VisitMC:averagereturnsforeverytimesisvisitedinanepisodeFirst-visitMC:averagereturnsonlyforfirsttimesisvisitedinanepisodeBothconvergeasymptotically123452024/11/1336強化學習史忠植Problem:Unvisited<s,a>pairs(problemofmaintainingexploration)Forevery<s,a>makesurethat:P(<s,a>selectedasastartstateandaction)>0(Assumptionofexploringstarts)蒙特卡羅方法
2024/11/1337強化學習史忠植蒙特卡羅控制HowtoselectPolicies:(Similartopolicyevaluation)
MCpolicyiteration:PolicyevaluationusingMCmethodsfollowedbypolicyimprovement
Policyimprovementstep:greedifywithrespecttovalue(oraction-value)function2024/11/1338強化學習史忠植時序差分學習
Temporal-Difference時序差分學習中沒有環境模型,根據經驗學習。每步進行迭代,不需要等任務完成。預測模型的控制算法,根據歷史信息判斷將來的輸入和輸出,強調模型的函數而非模型的結構。時序差分方法和蒙特卡羅方法類似,仍然采樣一次學習循環中獲得的瞬時獎懲反饋,但同時類似與動態規劃方法采用自舉方法估計狀態的值函數。然后通過多次迭代學習,去逼近真實的狀態值函數。2024/11/1339強化學習史忠植時序差分學習
TDTTTTTTTTTTTTTTTTTTTT2024/11/1340強化學習史忠植時序差分學習
Temporal-Differencetarget:theactualreturnaftertimettarget:anestimateofthereturn2024/11/1341強化學習史忠植時序差分學習
(TD)Idea:DoADPbackupsonapermovebasis,notforthewholestatespace.Theorem:AveragevalueofU(i)convergestothecorrectvalue.Theorem:Ifisappropriatelydecreasedasafunctionoftimesastateisvisited(=[N[i]]),thenU(i)itselfconvergestothecorrectvalue2024/11/1342強化學習史忠植TD(l)–AForwardViewTD(l)isamethodforaveragingalln-stepbackupsweightbyln-1(timesincevisitation)l-return:
Backupusingl-return:2024/11/1343強化學習史忠植時序差分學習算法
TD()
Idea:updatefromthewholeepoch,notjustonstatetransition.Specialcases: =1:Least-mean-square(LMS),MontCarlo =0:TDIntermediatechoiceof(between0and1)isbest.Interplaywith…2024/11/1344強化學習史忠植時序差分學習算法
TD()
算法10.1TD(0)學習算法InitializeV(s)arbitrarily,πtothepolicytobeevaluatedRepeat(foreachepisode)InitializesRepeat(foreachstepofepisode)ChooseafromsusingpolicyπderivedfromV(e.g.,ε-greedy)Takeactiona,observerr,s′
Untilsisterminal2024/11/1345強化學習史忠植時序差分學習算法2024/11/1346強化學習史忠植時序差分學習算法收斂性TD(
)Theorem:Convergesw.p.1undercertainboundariesconditions.Decrease
i(t)s.t.Inpractice,oftenafixedisusedforalliandt.2024/11/1347強化學習史忠植時序差分學習
TD2024/11/1348強化學習史忠植Q-learningWatkins,1989在Q學習中,回溯從動作結點開始,最大化下一個狀態的所有可能動作和它們的獎勵。在完全遞歸定義的Q學習中,回溯樹的底部結點一個從根結點開始的動作和它們的后繼動作的獎勵的序列可以到達的所有終端結點。聯機的Q學習,從可能的動作向前擴展,不需要建立一個完全的世界模型。Q學習還可以脫機執行。我們可以看到,Q學習是一種時序差分的方法。2024/11/1349強化學習史忠植Q-learning在Q學習中,Q是狀態-動作對到學習到的值的一個函數。對所有的狀態和動作:Q:(statexaction)→value對Q學習中的一步:(10.15)其中c和γ都≤1,rt+1是狀態st+1的獎勵。
2024/11/1350強化學習史忠植Q-LearningEstimatetheQ-functionusingsomeapproximator(forexample,linearregressionorneuralnetworksordecisiontreesetc.).DerivetheestimatedpolicyasanargumentofthemaximumoftheestimatedQ-function.Allowdifferentparametervectorsatdifferenttimepoints.Letusillustratethealgorithmwithlinearregressionastheapproximator,andofcourse,squarederrorastheappropriatelossfunction.2024/11/1351強化學習史忠植Q-learningQ(a,i)Directapproach(ADP)wouldrequirelearningamodel.Q-learningdoesnot:Dothisupdateaftereachstatetransition:2024/11/1352強化學習史忠植ExplorationTradeoffbetweenexploitation(control)andexploration(identification)Extremes:greedyvs.randomacting (n-armedbanditmodels)Q-learningconvergestooptimalQ-valuesif*Everystateisvisitedinfinitelyoften(duetoexploration),*Theactionselectionbecomesgreedyastimeapproachesinfinity,and*Thelearningrateaisdecreasedfastenoughbutnottoofast (aswediscussedinTDlearning)2024/11/1353強化學習史忠植CommonexplorationmethodsInvalueiterationinanADPagent:OptimisticestimateofutilityU+(i)?-greedymethodNongreedyactionsGreedyactionBoltzmannexplorationExplorationfuncR+ifn<Nuo.w.2024/11/1354強化學習史忠植Q-LearningAlgorithmQ學習算法InitializeQ(s,a)arbitrarilyRepeat(foreachepisode)InitializesRepeat(foreachstepofepisode)ChooseafromsusingpolicyderivedfromQ(e.g.,ε-greedy)Takeactiona,observerr,s′
Untilsisterminal2024/11/1355強化學習史忠植Q-LearningAlgorithmSetForTheestimatedpolicysatisfies2024/11/1356強化學習史忠植Whatistheintuition?BellmanequationgivesIfandthetrainingsetwereinfinite,thenQ-learningminimizeswhichisequivalenttominimizing2024/11/1357強化學習史忠植A-Learning
Murphy,2003andRobins,2004EstimatetheA-function(advantages)usingsomeapproximator,asinQ-learning.DerivetheestimatedpolicyasanargumentofthemaximumoftheestimatedA-function.Allowdifferentparametervectorsatdifferenttimepoints.Letusillustratethealgorithmwithlinearregressionastheapproximator,andofcourse,squarederrorastheappropriatelossfunction.2024/11/1358強化學習史忠植A-LearningAlgorithm
(InefficientVersion)ForTheestimatedpolicysatisfies2024/11/1359強化學習史忠植DifferencesbetweenQandA-learningQ-learningAttimetwemodelthemaineffectsofthehistory,(St,,At-1)andtheactionAtandtheirinteractionOurYt-1isaffectedbyhowwemodeledthemaineffectofthehistoryintimet,(St,,At-1)
A-learningAttimetweonlymodeltheeffectsofAtanditsinteractionwith(St,,At-1)OurYt-1doesnotdependonamodelofthemaineffectofthehistoryintimet,(St,,At-1)
2024/11/1360強化學習史忠植Q-LearningVs.A-LearningRelativemeritsanddemeritsarenotcompletelyknowntillnow.Q-learninghaslowvariancebuthighbias.A-learninghashighvariancebutlowbias.ComparisonofQ-learningwithA-learninginvolvesabias-variancetrade-off.2024/11/1361強化學習史忠植POMDP部分感知馬氏決策過程
Ratherthanobservingthestateweobservesomefunctionofthestate.Ob–Observablefunction arandomvariableforeachstates.Problem:differentstatesmaylooksimilarTheoptimalstrategymightneedtoconsiderthehistory.2024/11/1362強化學習史忠植FrameworkofPOMDP
POMDP由六元組<S,A,R,P,Ω,О>定義。其中<S,A,P,R>定義了環境潛在的馬爾可夫決策模型上,Ω是觀察的集合,即系統可以感知的世界狀態集合,觀察函數О:S×A→PD(Ω)。系統在采取動作a轉移到狀態s′時,觀察函數О確定其在可能觀察上的概率分布。記為О(s′,a,o)。[1]
Ω可以是S的子集,也可以與S無關2024/11/1363強化學習史忠植POMDPsWhatifstateinformation(fromsensors)isnoisy?Mostlythecase!MDPtechniquesaresuboptimal!Twohallsarenotthesame.2024/11/1364強化學習史忠植POMDPs–ASolutionStrategySE:BeliefStateEstimator(CanbebasedonHMM)П:MDPTechniques2024/11/1365強化學習史忠植POMDP_信度狀態方法Idea:Givenahistoryofactionsandobservablevalue,wecomputeaposteriordistributionforthestatewearein(beliefstate)Thebelief-stateMDPStates:distributionoverS(statesofthePOMDP)Actions:asinPOMDPTransition:theposteriordistribution(giventheobservation)OpenProblem:Howtodealwiththecontinuousdistribution?2024/11/1366強化學習史忠植TheLearningProcessofBeliefMDP2024/11/1367強化學習史忠植MajorMethodstoSolvePOMDP
算法名稱基本思想學習值函數Memorylesspolicies直接采用標準的強化學習算法Simplememorybasedapproaches使用k個歷史觀察表示當前狀態UDM(UtileDistinctionMemory)分解狀態,構建有限狀態機模型NSM(NearestSequenceMemory)存儲狀態歷史,進行距離度量USM(UtileSuffixMemory)綜合UDM和NSM兩種方法Recurrent-Q使用循環神經網絡進行狀態預測策略搜索Evolutionaryalgorithms使用遺傳算法直接進行策略搜索Gradientascentmethod使用梯度下降(上升)法搜索2024/11/1368強化學習史忠植強化學習中的函數估計RLFASubsetofstatesValueestimateastargetsV(s)GeneralizationofthevaluefunctiontotheentirestatespaceistheTDoperator.isthefunctionapproximationoperator.2024/11/1369強化學習史忠植并行兩個迭代過程值函數迭代過程值函數逼近過程HowtoconstructtheMfunction?Usingstatecluster,interpolation,decisiontreeorneuralnetwork?2024/11/1370強化學習史忠植FunctionApproximator:
V(s)=f(s,w)Update:Gradient-descentSarsa:
w
w+
a[rt+1+gQ(st+1,at+1)-Q(st,at)]
wf(st,at,w)weightvectorStandardgradienttargetvalueestimatedvalueOpenProblem:Howtodesignthenon-linerFAsystemwhichcanconvergewiththeincrementalinstances?并行兩個迭代過程2024/11/1371強化學習史忠植Semi-MDPDiscretetimeHomogeneousdiscountContinuoustimeDiscreteeventsInterval-dependentdiscountDiscretetimeDiscreteeventsInterval-dependentdiscountAdiscrete-timeSMDPoverlaidonanMDPCanbeanalyzedateitherlevel.OneapproachtoTemporalHierarchicalRL2024/11/1372強化學習史忠植Theequations2024/11/1373強化學習史忠植Multi-agentMDPDistributedRLMarkovGameBestResponseEnvironmentactionstaterewardRLAgentRLAgent2024/11/1374強化學習史忠植三種觀點問題空間主要方法算法準則合作多agent強化學習分布、同構、合作環境交換狀態提高學習收斂速度交換經驗交換策略交換建議基于平衡解多agent強化學習同構或異構、合作或競爭環境極小極大-Q理性和收斂性NASH-QCE-QWoLF最佳響應多agent強化學習異構、競爭環境PHC收斂性和不遺憾性IGAGIGAGIGA-WoLF2024/11/1375強化學習史忠植馬爾可夫對策在n個agent的系統中,定義離散的狀態集S(即對策集合G),agent動作集Ai的集合A,聯合獎賞函數Ri:S×A1×…×An→?和狀態轉移函數P:S×A1×…×An→PD(S)。
2024/11/1376強化學習史忠植基于平衡解方法的強化學習OpenProblem:Nashequilibriumorotherequilibriumisenough?TheoptimalpolicyinsinglegameisNashequilibrium.2024/11/1377強化學習史忠植ApplicationsofRLChecker’s[Samuel59]TD-Gammon[Tesauro92]World’sbestdownpeakelevatordispatcher[Critesatal~95]Inventorymanagement[Bertsekasetal~95]10-15%betterthanindustrystandardDynamicchannelassignment[Singh&Bertsekas,Nie&Haykin~95]OutperformsbestheuristicsintheliteratureCart-pole[Michie&Chambers68-]withbang-bangcontrolRoboticmanipulation[Grupenetal.93-]PathplanningRobotdocking[Lin93]ParkingFootball[Stone98]TetrisMultiagentRL[Tan93,Sandholm&Crites95,Sen94-,Carmel&Markovitch95-,lotsofworksince]Combinatorialoptimization:maintenance&repairControlofreasoning[Zhang&DietterichIJCAI-95]2024/11/1378強化學習史忠植仿真機器人足球應用Q學習算法進行仿真機器人足球2對1訓練,訓練的目的是試圖使主體學習獲得到一種戰略上的意識,能夠在進攻中進行配合
2024/11/1379強化學習史忠植仿真機器人足球前鋒A控球,并且在可射門的區域內,但是A已經沒有射門角度了;隊友B也處于射門區域,并且B具有良好的射門角度。A傳球給B,射門由B來完成,那么這次進攻配合就會很成功。通過
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年軟考網絡管理員研究試題及答案
- 山東省濟南市萊蕪區2025屆數學七下期末達標檢測試題含解析
- 會計個人工作計劃成功案例分享
- 秋季學期學生社交能力培養計劃
- 開展班級閱讀活動的方案計劃
- 網絡架構審計的必要性及試題及答案
- 供應鏈管理優化計劃
- 前臺文員專業知識更新計劃
- 理解網絡協議與試題及答案指導
- 2024年上海建橋學院輔導員考試真題
- 2025甘肅陜煤集團韓城煤礦招聘250人筆試參考題庫附帶答案詳解
- 2025-2030年中國溫泉特色酒店行業市場深度調研及發展趨勢與投資前景預測研究報告
- 2025江蘇中考:歷史高頻考點
- 家政合伙合同協議書
- 機械設備產品質量保證承諾書范文
- 《智能安防系統》課件
- 安監考試試題及答案
- 【綏化】2025年黑龍江綏化市“市委書記進校園”企事業單位引才1167人筆試歷年典型考題及考點剖析附帶答案詳解
- 合肥市2025屆高三年級5月教學質量檢測(合肥三模)歷史試題+答案
- 肯德基假期兼職合同協議
- 貨運司機測試題及答案
評論
0/150
提交評論