




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、1第第7章章 球隊決策策略球隊決策策略本章的主要內容Robocup球隊策略里面應該包含的那些內容。一個經典的跑位規劃方法FC Portugal的SBSP(Situation Based Strategic Positioning)介紹了一個局部戰術配合3Vs.2戰術。一般進攻體系的設計,主要包含進攻隊員的動作選擇,一般隊員的協同以及跑位。一般防守體系的設計,涉及到防守點的選擇,防守動作的評價、守門員的防守的動作等方面的內容。7.1 Robocup球隊策略綜述從足球比賽的角度來看,體現球隊整體策略的就是球隊的整體進攻和防守體系,當所有球員都按照相同的決策框架來進行決策時,球員的決策依據都相同,對
2、其他隊員的預測就比較準確,整個球隊就能夠體現出一定的協調性了。當Agent間的意愿一致的時候他們就會進行協作,當他們的意愿不一致的時候,就要進行協商,處理矛盾。Remco在他的論文中對球隊的整體策略進行了一下歸納。7.1 RoboCup球隊策略綜述(1)整體策略指定了隊伍的陣型以及其中隊員的位置。更進一步,它可以決定什么情況下應該采用什么樣的陣型。(2)整體策略定義了陣型中不同的角色,并把角色分配給不同位置的球員,同時確定哪種異構球員適合哪種角色。(3)對于每種類型的球員(后衛,中場,前鋒等)球隊策略應該根據它的角色確定分配給他哪些相應的行為。如對一個防守隊員來說,一般它應該比進攻隊員保守,它
3、選擇的動作也應該是偏向防守的。7.1 RoboCup球隊策略綜述(4)整體策略一般還包括球員應該如何根據場上形勢來調整行為的信息。比如在特定的策略下,一個球員在對自己的動作進行選擇的時候應該考慮到位置和位置所在的區域,同時還要考慮隊友和對手的位置。 (5)整體策略應該指定如何協調各個球員的行為因為不同的球員由于感知的不同,在策略的執行上可能出現不協調。如何減小這種潛在不協調的危險是策略的一部分。 (6)整體策略還應該能夠在比賽中合理的管理球員的體力。如球員在比賽中如果自己的體力特別低,除非萬不得已一般盡量減少跑動以恢復體力。7.1 RoboCup球隊策略綜述 此外,球隊的整體策略還應該考慮其他
4、一些因素。比如說(1)對手的強弱。對強弱不同的對手的動作是不一樣的,如對手的截球能力強在傳球的時候對傳球的細節考慮就應該更細一點,對手弱,考慮的就少一點,可以為追求更好的結果而采用更加冒險的傳球。(2)對方球隊的整體傾向。如對手是傾向于進攻還是傾向于防守。 (3)比賽的場上情況。比如說場上的比分,是落后還是領先。 7.1 Robocup球隊策略綜述(4)場上是否處于關鍵狀態。如我們已經攻入對方禁區或對手攻入我方的禁區采取緊急動作。(5)其他一些因素。是否考慮換人、是否考慮球員類型的轉換等等。 在設計的時候應盡量考慮到上面的情況。7.2基于場上形勢的戰術跑位(SBSP) SBSP首先是由FC P
5、ortugal提出的,它是結合了Peter Stone在CMU球隊里面的陣型和位置的概念,并在此基礎上面引入了戰術、場上情況、隊員類型等概念。SBSP的一些定義SBSP的一些定義(續)SBSP的一些定義(續)SBSP的一些定義(續)SBSP的使用SBSP的使用(續)SBSP的使用(續)最后得出了球員(Agent)在場上的戰略跑位:SBSP小結SBSP是一個比較成功的球隊整體策略的應用。它的基本思想是把場上狀態分為積極的和戰略的。球員的策略也分積極的和戰略的。當場上狀態是積極的時候,一般這是也就是關鍵的時候,如已經攻入了對方禁區,或進行戰術配合的時候,這時Agent就不在考慮在進行高層的決策直接
6、采用反應式的方式,如進入禁區面對守門員形成單刀,這是只有一個動作選擇,那就是射門。當場上狀態進入戰略狀態的時候,如進攻時,控球隊員是處于積極狀態,它進行動作的選擇,其他隊員都進入戰略狀態,這時它們的選擇就是跑位,這就是使用SBSP,跑到一個戰略位置。防守時在考慮盯人、阻截球的情況下,其他隊員就要選擇合適的位置進行跑位。這時使用的也是SBSP。SBSP的一般算法IF 場上是戰略狀態 IF 本方進攻 進攻球員進行動作選擇、其他隊員按SBSP跑位 ELSE 防守隊員截球、盯人、按SBSP跑位 ELSE 采用積極狀態下的即時動作設計RoboCup仿真比賽程序的主要難點: 在連續空間作連續的決策; 多個
7、Agent的存在給狀態空間帶來維數災難; 環境的反饋延遲太長。 環境具有強實時性和動態性; 環境通訊帶寬很窄; 環境有噪聲; 環境具有部分可觀性; 環境不具有馬爾可夫性;7.3強化學習實現局部戰術實際上,機器人足球比賽中的動作選擇可以看成是在一定的環境下Agent在自己獲取的世界狀態(s)情況下的選擇什么樣的a,由于系統實現的時候引入了噪音,因此環境不具有Markov性,也就是不可再現性,原則上說他就不具有使用強化學習的可能。當如果簡化這些影響,也可以把這個過程看成馬爾可夫過程,進而采用強化學習的方法。強化學習的關鍵是Agent與環境的交互可以看成是一個馬爾可夫模型,也就是說,環境應該具有再現
8、性。7.3強化學習實現局部戰術在Robocup中,我們考慮“戰術”任務是這樣一種情況:進攻一方在一活動范圍內試圖保持控球權,同時另一方試圖奪回控球權。無論何時防守方獲得控球權或球離開此區域,這個時間段就結束,球員便放置到另一個時間段(進攻方再次被給予控球權)。7.3強化學習實現局部戰術區域設定為20M*20M的正方形,并總有3個進攻隊員和2個防守隊員。球員涉及的動作主要有: HoldBall( ):持球,持球保持靜止并盡可能遠離對手。PassBall(f):傳球,將球直接踢給f。 GotoBall( ):跑向球。 GetOpen( ):跑位,跑到一個空曠的位置,在這個位置能得到傳出的球。 所有
9、防守方都采用固定的策略GOTOBALL( ),也就是說他們試圖阻截球,拿到球后用HOLDBALL( )保持控球權。在學習的時候,使用一個全能的教練Trainer(也是agent)在控制比賽,當防守隊員在設定時間里獲得控球權或球離開區域時Trainer就結束此時間段,就完成了一次對抗。在每個時間段開始,他在區域內隨機的置球和球員的位置,兩個防守方隊員從區域的一個角落開始,而每個進攻球員隨機放在其他三個角落,每個角落一個球員。 學習過程學習過程(續)學習過程(續)13個函數表示狀態(WS)dist(F1,C)dist(F1,F2)dist(F1,F3)dist(F1,D1)dist(F1,D2)d
10、ist(F2,C)dist(F3,C)dist(D1,C)dist(D2,C)Minimum(dist(F2,D1),dist(F2,D2)Minimum(dist(F3,D1),dist(F3,D2)Minimum(ang(F2,F1,D1),ang(F2,F1,D2)Minimum(ang(F3,F1,D1),ang(F3,F1,D2)Tile Coding 采用Tile coding方法來進行,狀態用一個13維的空間來表示,用網格表示每個具體狀態,在分析的時候,每個格對應一個二進制狀態,或是1(當狀態在這個格內)或是0(狀態不在這個格內)。 狀態評價函數這里是學習率,一個固定的參數,T是
11、從s開始的時間段內經過了T個時間步。規定,進攻隊員能確切控球的狀態有最高值0;所有其他狀態是負值,立即失球的狀態值接近-1。1000( )|, tTttVsEr ssEss策略學習 強化學習去完善進攻隊員的策略以達到盡可能長的時間控球 。 使用Q-learning,即每個進攻隊員獨立學習。這樣,所有的進攻隊員都能學會相似的策略或不同的策略。每個進攻隊員有三個動作選擇,對應于控球時的每個可能動作(GetOpen( ),GotoBall( ),HoldBall(),PassBall(f))這是我們的策略評價試驗中最有效的情況。策略學習 給出一個被用于每個進攻隊員的學習算法。函數UpdateRL(r
12、)在后面定義。counter=-1; If (球出界或防守方得到球)If (counter 0) UpdateRL(-1) else if (球不可踢) If (counter 0) counter+; If (可以跑向球達到控球) GoToBall(); else GetOpen(); else if (球可控) If (counter 0),UpdateRL(0) LastAction=Max(ActionValue(a,current state variables); Execute LastAction ; counter=0; Else (這時球被另外一個前鋒控制) If (cou
13、nter 0) UpdateRL(0); counter=-1;函數UpdateRL(r) UpdateRL(r):用TDError來更新狀態評價函數。11= + Max(ActionValue()-ActionValue()countercounterTdError ra,current,state,variablesLastAction,LastVariables注意事項: 為了鼓勵策略空間的擴展,可以使用簡單的初始條件:未經過訓練的逼近函數開始輸出為0,這在所有真實值為負的情況下是可行的。由于任何沒有試過的動作往往看上去比已經試過多次并被確切賦值的動作更好,這就使所有動作都有機會被嘗試。
14、小結: 使用強化學習進行局部3VS.2戰術的學習要求對手的防守能力強,也就是對球的截球能力強,這方面存在兩個困難:(1)跟自己比賽,提高有限,(2)和強隊比賽,高層策略無法控制。另外,3VS.2只是一個針對局部區域的策略,理論上是可以擴充到全局(11VS.11),這時一個實際需要解決的問題是就是怎么解決龐大的狀態空間。這也是我們以后的研究方向。 7.4進攻體系 進攻是從本方隊員控球開始,直到本方失去控球權為止。 進攻體系考慮的問題持球隊員進行備選動作的選擇,其他隊員或進行策應,或進行合理的跑位。 可以分為戰術配合(局部的幾個球員)和戰略配合。7.4.1戰術配合 戰術觸發條件 戰術的實施過程 戰
15、術的終止條件 戰術的設計主要涉及到2個方面: 戰術本身的設計 通訊協議7.4.2戰略配合 持球隊員(進攻的核心球員)的動作選擇設計。 接球隊員的響應設計 一般隊員的跑位設計7.4.2.1持球隊員的動作選擇決策樹(if else規則):這實際上是MAS中的策略學選取中的比較匹配函數、興趣或愛好函數的方法。 基于效用對策論進行動作選擇。基于效用對策論前面介紹了HfutAgent的個體技術,一個球員在控球以后,它可以選擇帶球、開球、傳球(包括選擇哪個隊友進行傳球)等動作。如何恰當地選擇合適的動作是比較重要的問題。歸根結底,在選擇這些動作的時候必須考慮其他球員的利益,這就是多Agent的協作問題了。上
16、節介紹了使用強化學習的方法來進行動作的選擇。本節討論一下使用對策論的方法來進行動作的選擇。基于效用的對策論是MAS協作是的一種常用的方法。對策論對策論,又稱博弈論,是使用嚴謹的數學模型研究沖突對抗條件下最優決策問題的理論。它的研究方法和其他很多利用數學工具研究社會經濟現象的學科一樣,是從復雜的現象中抽象出基本的元素,對這些基本元素構成的數學模型進行詳盡分析,而后逐步引入對其形勢產生影響的其他因素,從而分析其結果。為建立沖突對抗條件下決策的數學模型,必須數學化地描述沖突的參與者所有可能的行為方式及其行為結果,因此它也被視為數學的一個分支。 對策論Robocup中對策論的方法實際上解決的就是在對抗
17、條件下(在考慮多方面 影響因素)怎么使自己(本方球隊)的利益最大化。MAS中的對策論就是求參與MAS協作和規劃的所有Agent的整體效用,針對Robocup,選擇動作的影響因素,以及選擇該動作的效用作為對策論的基礎,持球者計算得出所有參與進攻的球員的效用最大值,并把最大值對應下的動作作為該持球隊員的輸出動作。 基于效用的對策論設影響的因素cond1, cond2 , ,condn, 確定它們對動作的影響P(act| condi),計算P(actcond1, cond2, ,condn),求出的 動作。 其中U(a)為采取某種動作后的效用,P(actcond1, cond2, ,condn)表示
18、條件概率,只有高于特定的閾值的動作才被我們考慮作為備選動作。 max( |1,2,.,) ( )a actionsetP a cond condcondnU a影響因素:(1)戰術。戰術需要分析的問題:當前的戰術(特定陣型下的)、戰術是否要改變等方面的內容。它主要包含陣型和進攻的傾向性。(2)球員類型。在真實的足球比賽中,隊員之間的屬性是不同的。同人類的足球比賽一樣,我們給每個仿真隊員定義了一個類型。用attackness、leftness和aggressiveness三個取值在0和1之間的量來表示一個隊員的類型屬性。前兩個量標明球員所打的位置。Attackness區分隊員的任務偏重于進攻的程
19、度。Leftness區分隊員所在區域的偏左的程度,Aggressiveness標明的是一個隊員的動作侵略性。影響因素(續):(3)陣型。在足球比賽中,每個隊員的活動區域是相對固定的,隨著球的位置變化,活動區域也在變化,但是每個隊員的相對位置變化比較小,這在足球比賽中稱為陣型。 (4)對手模型。目前對對手模型考慮的較少,還沒有一個比較成熟的基于對手的建模機制。7.4.2.2接球隊員的響應設計 傳球隊員一旦準備傳球,就向需要響應的接球隊員喊話(say),可以出球的目標狀態通過一定的通訊協議傳遞給接球隊員,指導接球隊員的跑位。7.4.2.3一般隊員的跑位設計 一般隊員按照SBSP跑位思想進行跑位。
20、注:清華采用把隊員的跑位點通過神經網絡做成關于球的位置和本身球員號碼的一個函數P(B,i).7.4防守體系 防守是從本方失球以后就開始的,一直到本方球員重新獲得控球權。防守體系主要考慮的問題就是一般球員組成的防守體系和守門員的防守。更進一步就是考慮加入了守門員的防守體系。 防守動作Mark(盯人,主要是指盯無球隊員)Block(卡位,堵截帶球隊員,防止其推進)Press(貼身回追帶球隊員)Formation(跑本位點)。Intercept(截球)其它注:盯人的目的是防止被盯的對手接到傳球;Block的目的是阻礙對方控球隊員帶球前進;跑本位點是指球員站在本位點處防守,即進行區域防守。 7.4.1
21、一種防守方法的介紹該體系用防守動作的目標點(對于Mark來說,防守動作的目標點在被盯隊員附近;對于Intercept來說,防守動作的目標點在阻截點上)離本位點的遠近、目標點離球員當前位置的遠近和防守目標的對防守的威脅程度來作為一個防守動作的特征。目標點離本位點遠,說明隊員要離開自己的防守的區域去防守,這對整體的防守利益帶來不好的影響。目標點離當前位置遠,說明該防守動作短期內不容易收到效果,因為可能在往防守目標點移動的過程中,原來的決策已經失去意義了;如果目標點離當前位置近,說明該防守動作可以很快見效,比如已經貼著對手,這時如果能堅持對目標的防守可能收到很好的防守效果。威脅程度大致可以用被防守的
22、對手離球門的遠近來衡量,離球門越近,威脅程度越大。 一種防守方法的介紹 如果考慮的細致些的話,可以把場上的區域離散化,根據足球專家的經驗標明每個區域大致的威脅程度,通過插值可以得到每個點的威脅程度。顯然防守威脅程度越高的隊員,防守動作的利益越大。 一種防守方法的介紹 為了提高效率,在該防守體系中每個進攻球員只有一個防守隊員負責防守。即針對同一名對方隊員防守隊員的動作是互斥的。每個防守隊員在一個時刻只能執行上述防守動作中的一個。防守規劃:在體系中還對防守進行了規劃,使用的方法是基于局部視覺的全局規劃。在該防守規劃中,每個防守隊員均考慮場上所有隊員的防守策略。首先對所有的進攻-防守隊員配對以及防守
23、隊員-本位點配對生成防守動作。接著根據前面提到的防守動作的特征得出防守動作的優先級;然后用分支定界的方法,求出這個最優的防守動作集;最后防守隊員從方案中查詢應該有自己執行的動作。 具體算法:(1)判斷球被控制的類型。分為四種,雙方同時控球(爭球)、對方控球、我方控球、無人控球(搶球)。如果是對方控球或者無人控球但對方會先得球,我方隊員就采取防守策略,并預測球下一次被控制的位置。(2)判斷對方控球球員。如果是爭球情況,根據各種信息判斷最有可能控球的人。(3)判斷防守任務和可用人手。根據世界模型和內部狀態,判斷有進攻威脅的對方球員并確定防守任務和確定可用來防守的我方球員。(4)考慮所有用一個可用人
24、手執行一個防守任務的情況,判斷所應該采取的防守類型和相應的防守細節,并確定該次防守行為的效益。(5)從防守任務和可用人手配對生成最優的防守方案(最大化防守效益和),然后提交自己有關的防守請求。7.4.2守門員的防守 在實際的足球比賽中我們經常聽到一個好的守門員相當于半支球隊。守門員的防守在Robocup中的影響也很大。經過實踐證明,在守門員的防守當中,最重要的是守門員的站位和守門員得球后的開球動作。當然,守門員的防單刀球、邊路防守等動作也比較重要。下面首先給出守門員在比賽過程中的決策過程,然后著重介紹守門員的站位和開球動作。 守門員的一般決策過程:(1)判斷比賽是否開始;如果沒有則調整站位,否則轉(2)(2)判斷球的位置是否不可信,如果不可信則搜索球的位
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 石油開采業的資源儲量與利用現狀考核試卷
- 竹材在復合材料領域的應用考核試卷
- 電子電路的智能城市基礎設施建設考核試卷
- 童車制造企業市場拓展與渠道建設考核試卷
- 電視機制造業的可持續發展目標與實現路徑考核試卷
- 那一段什么的時光初三語文作文
- 理想初二語文作文
- 工藝美術創新與實踐考核試卷
- 移動通信技術在智慧金融的應用考核試卷
- 紙張與紙板生產中的質量檢測與控制考核試卷
- 建筑工程安全知識課件
- 鋼材三方采購合同范本
- 貿易安全培訓管理制度
- 全民營養周知識講座課件
- 2025年鄭州電力職業技術學院單招綜合素質考試題庫及答案1套
- 門牌安裝施工方案
- 人教精通版小學英語四年級上冊單元測試卷
- GB/T 24477-2025適用于殘障人員的電梯附加要求
- 風力發電項目合作框架協議
- 2025-2030中國PH傳感器行業市場發展趨勢與前景展望戰略研究報告
- 2025福建詔安閩投光伏發電有限公司招聘4人筆試參考題庫附帶答案詳解
評論
0/150
提交評論