




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
博弈論基本模型什麼是博弈活動博弈活動具有以下特徵:1.有人參加。我們把參加的人稱為參與人或局中人。2.在每一步,局中人有明確的、可以選擇的行動。3.有明確的行動順序。4.參與人在選擇行動時有明確的資訊。5.活動結束時有明確的支付規則。具有上述特徵的活動稱為博弈活動。
合作博弈與非合作博弈如果在一項活動中,參與人具有合作的意向,而且合作的行為又能得到有力的保障,則稱這種博弈活動為合作博弈,否則稱為非合作博弈。對於非合作博弈,從模型構建的形式上又可分為策略型博弈與擴展型博弈。1.1有限擴展型博弈模型博弈模型的構建應用博弈論方法分析研究經濟管理或其他領域中的問題,首先要構造出博弈模型來,因而需要從大量的博弈活動中抽象出博弈模型的基本要素,對這些要素進行嚴格、準確的刻畫後,形成博弈模型。將博弈活動構造成博弈模型,需要瞭解以下6個方面的情況:1.參與人;2.外生事件的概率分佈;3.參與人選擇行動的次序;4.參與人所能選擇的行動;5.參與人在選擇行動時所瞭解的資訊。6.參與人的支付。構造博弈模型所需要的要素1.局中人集合
,稱為局中人或參與人集合。中元素稱為參與人或局中人。參與人不專指人,它泛指參與博弈活動的政府、企業、地區、國家、個人……等決策主體。通常用“0”表示虛擬局中人,它的行為是以確定的概率分佈進行隨機選擇,表示實際參與人。2.行動集合
稱參與人在博弈中所有可能選擇的行動構成的集合為局中人i的行動集合。中的元素稱為局中人i的行動。局中人的行動集合可能是有限集,也可能是無限集。如果博弈活動中每個局中人的行動集合都是有限集,且每個局中人行動的次數也是有限的,稱該博弈為有限博弈。3.博弈樹對於有限博弈,可用博弈樹直觀地刻畫它,市場進入問題的博弈樹如圖1-1所示。
容許I01①①①②容許抵制②進入進入不進不進旺盛疲軟圖1-1市場進入博弈樹II抵制
I抵制4.博弈樹中終點Z下麵的向量稱為支付向量,它的第個分量表示博弈結束於Z時,局中人i所得的支付。支付可表示參與人的某種收益或損失。本書中的支付指收益、效用、利潤等。正式地,支付向量是終點集合Z到n維向量集合的映射。5.資訊集與資訊集分割資訊集由同一個局中人、在相同的時點上的具有相同資訊的決策節點組成。用表示局中人i的第k個資訊集。它滿足(1)(表示空集);(2)從博弈起始點到任一終點的路徑至多與交一點(描寫同一資訊集中的節點處於同一時點上);(3)從中的任一節點出發,局中人i可能選擇的行動集合都相同(因為局中人在同一資訊集的不同節點上具有相同的資訊)。在博弈樹上,將屬於同一資訊集的節點用虛線框在一起。稱為局中人的資訊集類(在數學上,稱以集合為元素的集合為類)。稱為資訊集分割。有限擴展型博弈模型的定義定義1.1稱為有限擴展型博弈模型。其中N為參與人集合,Y為博弈樹,U為支付向量,I為資訊集分割,q為外生事件的概率分佈。完全資訊博弈與不完全資訊博弈如果所有的局中人對構成G的元素N,Y,U,I,q都完全瞭解,稱G為完全資訊博弈,否則為不完全資訊博弈。靜態博弈與動態博弈如果所有的局中人都同時選擇行動,稱G為靜態博弈,否則稱G為動態博弈。靜態博弈更本質的特徵是所有局中人在選擇行動時不知道對手選擇了什麼行動。例1.1考慮按以下步驟進行的博弈活動。第1步局中人1從字母T,H中選一個;第2步局中人2不知第1步的選擇,再從H,T中選一字母;第3步局中人知道1,2兩步的選擇,又從T,H中選一字母;第4步局中人2不知第3步的選擇,但知1,2兩步的選擇,最後從T,H中選一字母,博弈結束。按照每步選擇的結果,每個局中人各得一筆報酬(略)。該博弈的局中人集合.該博弈的資訊集合分別為,其中。②②②①HHHTTT圖1-2①①①①HHTHTHTHTHHTHTHTTHHHTTTT②②②②②②②資訊集可以告訴我們以下4點1.在一個資訊集上應由哪個參與人選擇行動。2.從一個資訊集出發,局中人可能選擇哪些行動。3.局中人在一個資訊集上選擇行動時已知道了哪些資訊。4.單點資訊集表明相應的局中人完全瞭解博弈從開始到該資訊集的博弈歷程。完美資訊博弈如果G的每個資訊集都是單點資訊集。表明博弈的每個參與人在選擇行動時對博弈到現在為止的歷程都完全瞭解,這時稱G為完美資訊博弈。擴展型博弈不僅能刻畫動態博弈,也能刻畫靜態博弈靜態擴展型博弈的例子例1.2
兩個參與人同時從字母T,H中選擇一個,博弈結束時兩個參與人各得一筆支付,該博弈的博弈樹如圖1-3所示。②②①HHHTTT圖1-3擴展型博弈的子博弈擴展型博弈的子博弈大體上說是原博弈的一部分,但它不能破壞原博弈的資訊集。定義1.2設為一有限擴展型博弈,從Y的決策節點h出發的子博弈滿足(1)h是G的單點資訊集;(2)N;(3)是Y的子樹,它由h及其後的所有節點與終點構成;(4)不能割裂G的資訊集;(5)若“自然”仍屬於,則中“自然”的概率分佈;(6)設Z為的終點,支付向量。1.2有限擴展型博弈的策略策略的定義定義1.3
局中人的策略集合用表示,中的元素稱為局中人i的策略。它定義為局中人i的資訊集類到行動集的映射:
策略是資訊集的映射,行動是映射值。兩者是不同的概念。例1.3
考慮圖1-1所示的擴展型博弈的策略。策略表明參與人2在第1個資訊集上選擇行動,在第2個資訊集上選擇行動。其餘策略可同樣理解。
容許I01①①◎②容許抵制②進入進入不進不進旺盛疲軟圖1-1市場進入博弈樹例1.4考慮例1.1所給出的擴展型博弈的策略。
例1.5
考慮例1.2給出的擴展型博弈的策略。
在靜態博弈模型中,局中人策略與行動等同。1.3一般擴展型博弈模型構成一般擴展型博弈模型的要素(1)一個有限的局中人集合:,其中“0”表示虛擬局中人—“自然”,它以確定的概率分佈進行隨機選擇。(2)一個滿足下列三條性質的行動序列集合H。①H中包含一個空序列,即;②如果局中人的有限行動序列H,則對正整數,都有
H;③對於局中人的無限行動序列,若對任何正整數都有,則H,否則H。稱滿足以上三條性質的行動序列集合H為歷史集。稱歷史集中的元素H為博弈的一段歷史。稱一段歷史H為博弈的終點,如果它是無限的()或不存在使H。博弈全體終點構成集合記為Z。(3)局中人映射,表示歷史h之後應由局中人i選擇行動。(4)定義“自然”的行動集合上的概率分佈為q。(5)資訊集分割。對於每個局中人,稱集合(可為無窮)為的一個資訊集分割,稱為局中人的資訊集,如果它滿足性質①;②只要與同在內,則。表示局中人在歷史之後的可能選擇的行動集合。③對,中至多有一段歷史與h相交。(6)支付向量支付向量是終點到的映射。其中是當博弈結束於,局中人的支付值。例1.1的一般擴展型博弈模型1.局中人集合.2.歷史集合H={,T,H,TT,TH,HT,HH,TTT,TTH,THT,THH,HTT,HTH,HHT,HHH,TTTT,TTTH,TTHT,TTHH,THTT,THTH,THH,THHH,HTTT,HTTH,HTHT,HTHH,HHTT,HHT,HHHT,HHHH}終點集合Z={TTTT,TTTH,TTHT,TTHH,THTT,THTH,THHT,THHH,HTTT,HTTH,HTHT,HTHH,HHTT,HHTH,HHHT,HHHH}3.局中人映射。
,,,4.資訊集分割。
其中,,,,.5.支付向量。一般擴展型博弈模型的策略和有限擴展型模型一樣,一般擴展型博弈模型的策略也是定義為資訊集類到行動集的映射。,,(可為)。一般擴展型博弈模型的子博弈一般擴展型博弈模型的子博弈是從一個單點資訊集引出,由局中人映射所確定的到終點集合的子博弈,子博弈不能割裂原博弈的資訊集。1.4策略型博弈模型1.4.1策略型博弈模型的定義定義策略型博弈模型,僅需要局中人、策略、支付這三個要素。靜態博弈的策略與行動是等同的。策略組合稱由每個局中人的策略所構成的向量為一個策略組合,其中。稱n個局中人的策略集的乘積集合為策略組合集合。支付函數局中人的支付函數是定義在策略組合集合S上,取值於實數的映射。。局中人i的支付函數是定義於策略組合集合上,而非i的自身策略集上,表明局中i人的支付不僅與自己的策略有關,也與對手的策略組合有關,即博弈論中局中人之間的利益是互相制約的。這是博弈論與決策理論的一個重要區別。定義1.5
稱為一個策略型博弈模型
例1.6囚徒困境問題這個問題可以歸結為下述靜態資訊完全的博弈模型.其中,局中人集合,1代表罪犯甲,2代表罪犯乙。兩個局中人具有相同的策略集合:,其中C代表坦白,D代表抗拒的行動。對於策略組合,,兩個局中人的支付函數如下:該問題對應的擴展型博弈模型可用圖1-4示的博弈樹直觀給出。
抗拒抗拒抗拒坦白坦白坦白圖1-4①②②1.4.2二人有限策略型博弈模型二人有限策略型博弈模型設是一個策略型博弈模型,如果,,,即N是兩個局中人的集合,都是有限集,稱G為二人有限策略型博弈模型。對於二人有限策略型博弈模型,定義,,.稱以下以向量為元素的矩陣為G的支付矩陣。二人有限策略型博弈模型可由支付矩陣完全描述稱為參與人1的支付矩陣,
為參與人2的支付矩陣。二人有限策略型博弈G也可稱為雙矩陣博弈,記為囚徒困境問題是個二人有限策略型博弈,其支付矩陣為1.4.3重複剔除被嚴格占優策略均衡定義1.6如果對於任何策略組合有,則稱局中人i的策略嚴格占優策略,或被嚴格占優。在博弈論中,對於參與人的一個基本理性假設是:參與人偏好更高的支付。因而不會使用被嚴格占優的策略。在上述理性假設下,我們有理由將被嚴格占優的策略刪除。用剩餘的策略組合預測博弈的結果。重複剔除被嚴格占優策略均衡一個策略本來是不被嚴格占優的,但經過一輪刪除被嚴格占優的策略後,它變為被嚴格占優的策略了,因而我們必須在第2輪中將其刪除。在有限博弈中,這樣的刪除被嚴格占優策略的過程遲早會結束。如果結束時,僅剩下一個未被刪除的策略組合,則稱為重複剔除被嚴格占優策略均衡,稱該博弈為嚴格占優可解的。我們可用重複剔除被嚴格占優策略均衡預測博弈的結果。在囚徒困境問題中,策略組合是重複剔除被嚴格占優策略均衡。例1.7伯川德價格競爭假設雙寡頭壟斷市場中兩個企業都可選擇價格策略高、中、低三種,支付矩陣為該博弈是嚴格占優可解的,策略組合(低,低)為重複剔除被嚴格占優策略均衡。。並不是每個策略型博弈都是嚴格占優可解的。例1.8兩個土地所有者共同擁有一防洪大堤,每個人分管一段進行維護,維護成本為4。如不維護,洪水造成的損失為10。該博弈的支付矩陣為該博弈不是嚴格占優可解的。對於不是嚴格占優可解的博弈,將繼續討論參與人應如何選取策略1.5擴展型博弈模型轉化為策略型博弈模型例1.9
考慮以下動態博弈。第1步,局中人1從{1,2}中選擇一數;第2步,局中人2知道的值。從{1,2}中選;第3步,局中人1知道的值,從{1,2}中選,博弈結束。對於給定的()值,局中人2支付給局中人1一筆費用:,,,,,,該動態博弈所對應的博弈樹如圖1-6所示。12122211I15I14I13I122②圖1-6I21I221I112112②①①①①①該動態博弈所對應的博弈樹如圖1-6所示。12122211I14I13I122圖1-6I211I112112②①①①①①該博弈的局中人集合,為將其轉化為策略型博弈,還需要確定出局中人的策略空間及支付函數或支付矩陣。局中人1的策略空間為}.局中人2的策略空間為該博弈對應的策略型博弈可由如下的支付矩陣給出。該博弈對應的策略型博弈可由如下的支付矩陣給出。
例1.10
考慮如下動態博弈。第1步,局中人1從中選一數;第2步,局中人2知道,從中選;第3步,局中人1不知,也忘記了,從中選,博弈結束。對選定的,局中人2支付給局中人1的費用與前例相同,該博弈對應的博弈樹如圖1-7所示。1121222211I12①2圖1-7I21I2211I11①①①①②②該博弈局中人集合為.局中人1的策略集合.局中人1的策略集合.支付矩陣為:從以上兩例中,可以看到策略與行動這兩個概念的明顯的區別。基本概念本章要求掌握如下基本概念合作博弈非合作博弈有限擴展型博弈模型完全資訊博弈不完全資訊博弈靜態博弈動態博弈完美資訊博弈子博弈策略策略型博弈模型支付矩陣重複剔除被嚴格占優策略均衡嚴格占優可解博弈小結本章闡述了博弈論所研究的活動具有的特徵,並指出博弈論與決策理論區別。決策理論中一般僅有一個決策者,他們從個人效用最大化出發進行決策,而博弈論中有多個決策主體,這些主體之間是利益相關的。博弈論主要討論他們之間的策略互動關係。博弈論模型從形式可分為策略型博弈模型與擴展型博弈模型。擴展型模型完整地刻畫了一項博弈活動。博弈樹是擴展型模型的形象刻畫,但它僅描述了有限的博弈模型。策略型博弈模型的結構簡單,但它忽略了博弈的時序與資訊,其側重點在於分析參與人的策略選擇。對於資訊完全靜態博弈,用策略型博弈刻畫更為合適。對資訊完全的動態博弈,用擴展型博弈模型描述更為合適。策略與行動是兩個容易混淆的概念,其原因是在靜態博中,策略與行動是等同的,而一般教材先介紹靜態博弈,這可能會給自學者造成策略就是行動的先入為主的錯誤觀念,這也是本書先介紹擴展型博弈後介紹策略型博弈的一個主要原因。本章還針對策略型博弈介紹了求解重複剔除被嚴格占優均衡的方法。本章重點要求掌握這個方法以及把已知擴展型博弈模型轉化為策略型。重點要求能夠區分策略與行動這兩個概念。為了邏輯上的完整性,我們還在補充節仲介紹了一般擴展型博弈。納什均衡2.1納什均衡的定義納什均衡是博弈論中最重要的概念,各種非合作博弈模型的均衡概念都是建立在納什均衡基礎之上的。納什均衡是個策略組合,它滿足兩個要求。1.對每個局中人,能夠預期到對手採用策略組合。2.對每個局中人,是他應對的最好的策略。納什均衡的定義定義2.1
設為一具有完全資訊的策略型博弈模型,稱策略組合為G的一個納什均衡。如果對是在i的對手策略組合為條件下局中人i的最優反應策略,即
或對。如果以上不等式對嚴格成立,稱為G的嚴格納什均衡。在完全資訊靜態博弈中可用納什均衡預測每個參與人的策略,進而預測我們所關心的各種博弈結果。擴展型博弈模型的納什均衡定義為它所對應的策略型博弈的納什均衡。例2.1囚徒困境問題在例1.6給出的囚徒困境問題中,是惟一的嚴格納什均衡。策略組合都不是納什均衡。例2.2伯川德(Berchand)均衡設有生產同質產品的兩個企業,同時獨立地確定產品的價格。已知該產品市場需求函數為,滿足。這裏q代表產量,p代表價格。兩個企業具有相同的單位成本.企業的利潤函數如下:這裏表示兩個企業的價格分別為時,市場對於企業的產品的需求量。上述企業價格競爭問題可以歸結為完全資訊靜態博弈模型其中局中人集合。策略集合表示企業所有可行價格構成的集合。支付函數。為求該模型的納什均衡,可先將策略組合集合中的點分為4類,分別討論它們是否能構成納什均衡。第1類,第2類,第3類,第4類,(1)當,不是納什均衡。.(2)當,不是納什均衡。(3)當,不是納什均衡。(4)當,是納什均衡。稱其為伯川德均衡。例2.3簡單產品差異化模型考慮由商店構成的市場,A與B分別銷售不同品牌的商品,進行價格競爭。假設生產的單位成本為零。消費者分為兩類,個消費者偏好於產品A,個消費者偏好於產品B。A,B兩種品牌價格分別為。設消費者可從A或B處購買單位商品。用表示由於購買不喜歡的產品所付出的厭惡成本,假設消費者具有如下的效用函數用表示消費者對於產品A的需求量;表示消費者對於產品B的需求量。則可以證明上述產品的差異化模型不存在納什均衡。納什均衡的不變性由納什均衡的定義知,為納什均衡的充要條件是對任何參與人支付差,而與這個差值是多少無關,由此可導出納什均衡的一個性質:納什均衡的不變性命題2.1
設為已知策略型博弈。(1)納什均衡在支付函數的正仿射變換下不變。對,令,其中,則G與有相同的納什均衡。(2)納什均衡在支付函數的局部變換下不變。給定及.令,G與有相同的納什均衡。重複剔除被嚴格占優策略均衡與納什均衡的關係命題2.2
若是有限策略型博弈的納什均衡,那麼它不會被重複剔除被嚴格占優策略的過程所剔除。命題2.3在有限策略型博弈中,如果是重複剔除被嚴格占優策略均衡,則它必為納什均衡。2.2 求納什均衡的劃線法劃線法對於二人有限博弈,,G可由支付矩陣給出。設為G的納什均衡。即是局中人2對於的最優反應,是局中人1對於的最優反應。G的納什均衡可由以下劃線法求得。1.對局中人1的每個策略,尋找局中人2的最優反應。若最優反應為,即,則在支付矩陣元素下劃一短線。2.對局中人2的每個策略,尋找局中人1的最優反應,若最優反應為,即,則在元素下劃一短線。3.如果支付矩陣中元素的每個分量都劃有短線,這表明,是關於的最優反應。也是關於的最優反應,故,策略組合為G的納什均衡。例2.4在囚徒困境問題中,其支付矩陣為應用劃線法,支付矩陣中的元素(-5,-5)下都劃上了短線,其所對應的策略組合為納什均衡,且是嚴格的納什均衡,例2.5
鬥雞博弈兩個人舉著火棍從獨木橋的兩端走向中央進行火拼,每個人都有兩種戰略:繼續前進,或退下陣來。若兩個人都繼續前進,則兩敗具傷;若一方前進,另一方退下來,前進者勝利,退下來的丟了面子;若兩人都退下來,兩人都丟面子,支付矩陣如下:用劃線法可得嚴格納什均衡(退,進),(進,退)。例2.6智豬博弈豬圈裏圈著兩頭豬,一頭大豬,一頭小豬。豬圈的一邊有一個豬食槽,另一邊安裝一個按鈕,按一下按鈕會有10個單位的豬食進槽。但誰按按鈕就需要付2個單位的成本。若大豬先到,大豬吃到9個單位,小豬吃到1個單位;若同時到,大豬吃7個單位,小豬吃3個單位;若小豬先到,大豬吃6個單位,小豬吃4個單位,支付矩陣如下。嚴格納什均衡為大豬“按”,小豬“等待”。例2.7在例1.8中的大堤維護博弈中,支付矩陣為利用劃線法可得納什均衡(維護,維護),(不維護,不維護)。為了保護生命財產的安全,政府可以立法,如果參與人不維護大堤,需付罰款5,則有支付矩陣這時該博弈有惟一的納什均衡(維護,維護)。2.3最優反應映射與納什均衡定義2.2局中人的最優反應映射局中人i的最優反應映射是一個定義於策略組合集合S,取值於策略集的子集的集值映射(映射值為集合的映射稱為集值映射),,滿足定義2.2表明,局中人i的最優化反應映射僅與有關。反應函數當為單點集時,稱為局中人i的最優反應函數,簡稱反應函數。這時將記為。定義2.3最優反應映射n個參與人的最優反應映射的乘積稱為博弈G的最優反應映射。博弈的最優反應映射與納什均衡之間的關係定理2.1為策略型博弈的納什均衡的充要條件是。設為一集值映射。若,稱x為的不動點。利用不動點概念,定理2.1可以如下敘述。命題2.4
是策略型博弈G的納什均衡的充要條件是是最優反應映射的不動點,即。例2.8
在囚徒困境問題中,是囚徒困境博弈的惟一納什均衡。例2.9多囚徒困境問題將例1.6中兩個囚徒推廣為個囚徒,且量刑的規則為,如果n個囚徒都抗拒,各判1年;如n個囚徒都坦白,各判5年;如果n個囚徒中有的坦白,有的抗拒。坦白者釋放,抗拒者判8年。這說明是惟一的納什均衡。例2.9多囚徒困境問題將例1.6中兩個囚徒推廣為個囚徒,且量刑的規則為,如果n個囚徒都抗拒,各判1年;如n個囚徒都坦白,各判5年;如果n個囚徒中有的坦白,有的抗拒。坦白者釋放,抗拒者判8年。,這說明是惟一的納什均衡。
例2.10設有n家電視臺可選擇m部電視劇在某段時間同時播放。電視臺的播放的收益為觀眾數的倍。已知偏好於第部電視劇的觀眾為,且。如果同時有幾個電視臺同時播放同一部電視劇,則它們均分觀眾,考慮電視臺如何播放電視節目。首先建立策略型博弈模型,其中局中人集合,表示第i家電視臺,策略集合,表示電視臺i選擇第j部電視劇播放。局中人的支付函數
且其餘電視臺中還有家播放。。對,且中有個1。。由知,故有,從而,對,,。可知每家電視臺同時播放電視劇1是惟一的納什均衡,該例解釋了n家電視臺熱播同一部電視劇的實際情況。例2.11國際聯盟博弈為毗鄰某海岸的三個國家,他們在這個海岸附近駐紮軍隊。要想控制整個海灣,至少需要兩個國家聯合起來。三國的兵力部署與相應的支付由以下支付矩陣給出
w選擇陸地
w選擇近海支付向量的第1,2,3個分量分別給出的的支付值。局中人的最優反應映射為,,,。因s為納什均衡需滿足,故納什均衡僅能存在於策略組合,,,中。
故納什均衡存在於策略組合,,中。,,從而該博弈的納什均衡為,,,相應的支付向量為,,。兩國結成聯盟控制海灣將會出現以下情況。(1)L與S聯盟,分別將兵力部署於北、東,W將把兵力部署於陸地;(2)L與W聯盟,分別把兵力部署於北、海,S將把兵力部署於西;(3)S與W聯盟,分別將兵力部署於東、海,L將把兵力部署於南。儘管三個國家都聯合起來,總支付最大,但他們之間如無具有約束力的協議,這種聯盟是不穩定的,因它不是一個納什均衡。由上例我們可以得出求多人有限策略型博弈的納什均衡的方法,步驟如下:1.對S中所有的策略組合計算,如果,則從S剔除,剩餘策略組合集合記為。2.對中所有的策略組合S計算。如,則從S中剔除,剩餘集合記為。3.應用類似方法n步,如,從中剔除,最後得到。中的策略組合都是納什均衡。特別是對於三人有限策略博弈模型,我們可給出納什均衡的劃線法。設參與人的策略集合分別為,,對
.對每個,,都可寫出一個以3維向量為元素的m行n列的支付矩陣。劃線法步驟如下1.對每個支付矩陣,比較每一行中的元素的第2個分量,最大者下麵劃線。2.對每個支付矩陣,比較每一列中的元素的第1個分量,最大者下麵劃線。3.對於個支付矩陣的相同行列的元素,比較第3個分量,最大者下麵劃線。例2.12公共物品提供對於公共物品,提供者與不提供者都享受同樣的效益,且公共物品提供的成本僅與其提供的服務水準有關,而與享用其效益的人數無關。設甲、乙、丙三人決定是否提供某項公共物品。1表示提供,0表示不提供。提供者需付出成本。而收益為已被提供的公共物品的數量,分別就討論該博弈的納什均衡。(1)當c=0.5,支付矩陣如下。丙提供:丙不提供:由劃線法知,(1,1,1)是納什均衡。(2)當c=1時,支付矩陣為丙提供:丙不提供:
任何一個策略組合都是納什均衡。(3)c=1.5,支付矩陣為丙提供:丙不提供:(0,0,0)為納什均衡。2.4求納什均衡的反應函數法如果博弈G的n個局中人的最優反應映射都是反應函數,我們有如下定理。定理2.2為博弈的納什均衡的充要條件是是局中人的n條最優反應曲線,的交點。由定理2.2,可用以下兩步求得納什均衡。1.求出每個參與人的最優反應函數,。2.求,的交點。例2.13設策略型博弈其中,支付函數為求G的納什均衡。為求,固定,求解優化問題:可得:為求,固定,求解優化問題:可得:兩條反應曲線的交點為它們給出了G的三個納什均衡。
例2.14
設。支付函數為為求,固定,求解優化問題可得,。為求,固定,求解優化問題由上例知兩條最優反應曲線的交點為納什均衡。例2.15投資問題兩個投資主體中央政府與地方政府都可向基礎設施與加工工業兩個方向投資,記:中央政府對於基礎設施的投資水準;:中央政府對於加工工業的投資水準;:地方政府對於基礎設施的投資水準;:地方政府對於加工工業的投資水準。中央政府與地方政府的投資效益為如下的Cobb-Douglas型函數。參數。的假設表明中央政府考慮基礎設施投資的外部性,而地方政府不考慮這種外部性,即中央政府對基礎設施投資有更大的偏好。在這個投資博弈中,參與人1為中央政府,參與人2為地方政府。中央政府選擇基礎設施投資水準,加工業投資水準。地方政府也選擇基礎設施投資水準與加工業投資水準。中央政府的問題是,對於固定的地方政府的投資選擇,選擇,在投資預算約束為中央政府的投資預算)下求解最優化問題地方政府的問題是固定中央政府的選擇,選擇,在預算約束下最大化自己的效益。其中為地方政府的投資預算。首先考慮中央政府問題,將代入目標函數,將中央政府問題簡化為由1階條件,可得(1)同理,地方政府問題可被簡化為
由1階條件,可得(2)不妨設,對於,分以下三種情況討論該博弈的納什均衡。1.中央政府最優反應函數為地方政府的最優反應函數為納什均衡為納什均衡如圖2-1(a)所示。圖2-1(a)2.中央政府最優反應函數為地方政府最優反應函數為納什均衡為即地方政府投資於加工業,中央政府投資於基礎設施。納什均衡如圖2-1(b)所示。圖2-1(b)3.中央政府最優反應函數為地方政府最優反應函數不變。納什均衡為即中央政府把全部資金投資於基礎設施,地方政府彌補中央政府對於基礎設施的投資不足,然後將剩餘資金投資於加工業。納什均衡如圖2-1(c)所示。圖2-1(c)
2.5納什均衡的性質定義與假設條件定義2.4
稱為擬凹函數,如果使,則有對成立。若以上不等式嚴格成立,則稱嚴格擬凹。注意,如果是單調函數,則擬凹。若為凹函數,則為擬凹函數。但為擬凹函數,不一定是凹函數。在納什均衡的存在性與惟一性的研究中需要以下假設。假設1博弈的每個局中人的策略集合為緊凸集,
指m維實數空間,中的緊集指有界閉集。假設2對局中人i的支付函數為連續函數。假設3對,局中人i的支付函數為的凹函數。假設4對,局中人i的支付函數為的擬凹函數。假設5對,局中人i的支付函數為的嚴格擬凹函數。納什均衡存在性定理定理2.3設策略型博弈G滿足假設1,2,4,則G至少存在一個納什均衡。當博弈G滿足假設1,2,3或1,2,5時,G存在納什均衡。為看到假設5的特殊作用,我們給出以下命題。命題2.5設為策略型博弈且滿足假設1,2,5,則局中人的最優反應映射,恰含有一點。假設5的重要作用在於局中人的最優反應映射這個集值映射轉化為局中人的最優反應函數。此時納什均衡的惟一性問題在下面的關於博弈G納什均衡的唯一性的討論種中,假設局中人的最優反應映射為反應函數。定義2.5設,x到y的距離被定義為定義2.6壓縮映射設映射,其中。如果存在正數,使對,,稱為壓縮映射。可用以下命題判斷為壓縮映射。命題2.6設可微,,如果存在,使對任意x成立,則為壓縮映射。例2.16因,所以為壓縮映射。定理2.4
若策略型博弈滿足假設1,2,5,且最優反應映射為壓縮映射。則G有惟一的納什均衡。定義2.7光滑博弈稱策略型博弈為光滑博弈,如果下述導數在策略型組合集合S內部上存在且連續(指S去掉邊界)。定義2.8嚴格光滑博弈稱策略型博弈G為嚴格光滑博弈,如果G是光滑的,且對策略組合集合的任何邊界點有上述極限對於中所有趨於的序列而取。定義2.9設A為m階方陣,若負定,稱A為擬負定矩陣。用表示1階條件系統的Jacobian矩陣,即它是由元素構成的階方陣。例如
其中。
定理2.5設G為完全資訊靜態的光滑博弈,滿足假設1,2,4.表示該博弈的最優反應映射的Jacobian矩陣,如果它對擬負定,且對,,則G有唯一的納什均衡。定理2.6Rosen惟一性定理設是嚴格光滑博弈,滿足條件1,2,5。且對任何擬負定,則G有惟一的納什均衡。
例2.17設策略型博弈,其中,,,.而不是負定矩陣,從而不是擬負定的。另外,其中不是壓縮映射。故我們不能得到G有惟一的納什均衡的結論,在例2.13中我們已求出了G的3個納什均衡。例2.18
設,,,顯然G為嚴格光滑博弈,且,負定,從而擬負定。由定理2.6知,G有惟一的納什均衡。
2.6混合策略下的納什均衡
2.6.1混合策略下的納什均衡例2.19“石頭、剪子÷布”遊戲是一個二人有限策略型博弈,它的支付矩陣為利用劃線法易見,納什均衡不存在。為了解決這類均衡不存在的問題,需要把策略的概念擴充為混合策略的概念,進而把納什均衡的概念擴充為混合策略意義下的納什均衡的概念。而把前面介紹過的策略與納什均衡分別稱為純策略與純策略意義下的納什均衡。混合策略為方便起見,針對二人有限策略型博弈討論這個問題。設。稱上的一個概率分佈為參與人的一個混合策略,故可分別用
表示兩個參與人的混合策略集合。為參與人1的混合策略,表示參與人1以概率隨機選擇純策略。為參與人2的混合策略,表示參與人2以概率隨機選擇純策略。易知,參與人1的混合策略等同於他的純策略。參與人2的純策略等同於他的純策略。因而混合策略包含了純策略,即混合策略是純策略概念的擴充。
稱為混合策略組合。對於混合策略組合,由於參與人隨機選擇純策略,因而參與人的支付值也是隨機的,故需用期望支付代替博弈G中的支付函數。對於給定的,參與人1的期望支付為參與人2的期望支付為稱為G的混合擴充。記,,,。分別為參與人1與2的支付矩陣。利用支付矩陣A與B,參與人1與2的期望支付可表示為這裏X表示參與人1的混合策略行向量,Y表示參與人2的混合策略列向量。定義2.10
稱混合策略組合為的納什均衡或G的混合策略納什均衡,如果,對任何成立,,對任何成立。當以上兩個不等式嚴格成立時,稱為G的嚴格混合策略納什均衡。混合策略意義下的納什均衡的含意仍為:固定是參與人2對的最優反應,固定是參與人1對的最優反應。2.72×2雙矩陣博弈的納什均衡
設為二人有限博弈,且,這時兩個參與人的支付矩陣分別為對G的支付函數作正仿射變換,相當於對參與人的支付矩陣每個元素乘以一個正數再加一常數,即其中,,。對G的支付函數作局部變換,相當於A的某一列加一常數或B的某行加一常數,即可以證明與有相同的混合策略納什均衡。當為2階方陣時,對G的支付函數進行局部變換,可對A進行列變換將A變為對角形。對B進行行變換將B變為對角形。1(1)、(5)成立條件圖形納什均衡2(1)、(6)成立3(1)、(7)成立4(1)、(8)成立5(2)、(5)成立6(2)、(6)成立7(2)、(7)成立8(2)、(8)成立9(3)、(5)成立10(3)、(6)成立11(3)、(7)成立(3)
(1)
(2)
y10x
12(3)、(8)成立13(4)、(5)成立14(4)、(6)成立15(4)、(7)成立16(4)、(8)成立(1)
(2)
(3)
表2.1給出了除之外的雙矩陣的所有納什均衡。這裏。例2.20囚徒困境對於例2.9的囚徒困境問題,兩個局中人的支付矩陣經局部變換後均為,由表2.1知,囚徒困境問題僅有一個純策略納什均衡(坦白,坦白)。例2.21鬥雞博弈對於2.10的鬥雞博弈問題,兩個參與人的支付矩陣經局部變換後均為,。由表2.1知,該博弈有兩個純策略納什均衡(進,退)、(退,進)與一個混合策略納什均衡。即以的概率退卻,以的概率進攻。鬥雞博弈表明了參與人在競爭中總是採取避免兩敗俱傷的理性行為。例2.22智豬博弈對例2.11的智豬博弈問題,兩個參與人的支付矩陣經局部變換後,分別為
,
。由表2.1知,該博弈僅有一個純策略納什均衡:大豬按,小豬等待。例2.23交通規則有的國家規定右側通行,有的國家規定左側通行。如果不作規定,情況如何?設兩個參與人的交通規則博弈的支付矩陣如下。兩個參與人的支付矩陣為,經局部變換後為以上博弈符合表2.1中第11種情況,,。純策略納什均衡為(左,左,),(右,右),混合策略納什均衡為例2.24狩獵博弈兩個獵人必須同時決定是獵鹿還是獵兔。如果兩人均決定獵鹿。他們會獲得一只鹿,然後平分。如果兩人均決定獵兔,、那麼每人可各獲得一只野兔。如果一人決定獵鹿,另一人決定獵兔,獵兔者將獲得一只野兔,而獵鹿者將一無所獲。對每個獵人而言,半只鹿的收益要大於1只野兔的收益,該博弈的支付矩陣為對支付矩陣作局部變換,可得,因而納什均衡與上例相同:,及混合策略納什均衡這裏“獵鹿”體現了參與人在政治、經濟、軍事等活動中的合作行為,“獵兔”體現了參與人的不合作行為。例2.25性別戰有一對情侶,男士喜歡看足球,女士喜歡看歌舞,週末他們兩人可選擇去看足球或看歌舞。支付矩陣為由表2.1的第11種情況,,,該博弈有2個純策略納什均衡(足球,足球),(歌舞,歌舞)與一個混合策略納什均衡。性別戰博弈刻畫了實際問題中參與人合作要優於不合作,但合作的收益還有區別的情形。例2.26公共物品提供在兩個參與人的公共物品提供博弈中,參與人可從公共物品中收益1,而付出的成本分別為。支付矩陣如下。分別對兩個參與人的支付矩陣作局部變換,變換後仍為。可得,。。由表2.1知,該博弈的納什均衡為(提供,不提供),(不提供,提供)。及混合策略納什均衡。兩個純策略納什均衡刻畫了公共物品提供問題中的參與人之間的“搭便車”行為。例2.27監督博弈監督博弈概括了諸如稅收檢查、品質檢驗、腐敗懲治、雇主監督雇員等活動。以稅收檢查為例,博弈的參與人為稅檢機關與納稅人。稅檢機關所能選擇的策略是檢查與不檢查,納稅人的選擇是逃稅與不逃稅。支付矩陣如下。
其中為應納稅額,為檢查成本,F是罰款,且。對兩個參與人的支付矩陣作局部變換後有,,。由表2.1,可得混合策略納什均衡,。均衡時,稅檢機關以概率檢查,越大,這個概率也越大;納稅人以的概率逃稅。檢查成本c越大,應納稅款越大,罰款F越大,這個概率越小。
2.8混合策略納什均衡的有關結論更一般的混合策略意義下的納什均衡混合策略設為一有限策略型博弈模型,其中局中人集合,對於,純策略集合為,上之一概率分佈,,稱為局中人i的一個混合策略。局中人i採用混合策略的含義是局中人i對純策略進行隨機選擇,以概率選擇純策略,。記,,因而可用表示局中人的所有混合策略構成的集合。稱為G的混合策略組合。期望支付如果局中人隨機選擇純策略,則局中人的支付也是隨機的,因而我們需要用局中人的期望支付描述局中人的選擇行為。給定,局中人i的期望支付為式中,.這樣
,顯然,局中人i的純策略等同於混合策略,因而混合策略集中包含了純策略。稱為G的混合擴充。定義2.10設為的一個混合策略組合,如果對及,均有(1)稱為G的混合策略納什均衡。當(1)式對為嚴格不等式時,稱為G的混合策略嚴格納什均衡。定理2.7
為的混合策略納什均衡的充要條件:是對,,有
(2)最優反應映射局中人最優反以映射是定義於混合策略集合,取值於的子集的集值映射,,滿足
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 新材料技術構建未來交通的新方式考核試卷
- 奶制品的冷鏈物流體系建設與管理考核試卷
- 毛皮行業國際貿易風險與防范考核試卷
- 球類產品研發與技術創新管理考核試卷
- 2025商業辦公裝修施工合同
- 2025演藝活動工作人員聘用合同樣本
- 2025苗木買賣合同范本
- 2025年物流運輸的合同范本
- 班級管理的規章制度
- 穿越頂管工程施工合同書樣板
- (四調)武漢市2025屆高中畢業生四月調研考試 地理試卷(含答案)
- 海南省海口市(2024年-2025年小學五年級語文)統編版期中考試((上下)學期)試卷及答案
- 2024年螞蟻云客服支付寶云客服工作證客戶工作證培訓試題及答案
- 酒店水單模板
- 作業指導書露天礦山作業指導書
- 部編五年級下冊道德與法治第7課《不甘屈辱-奮勇抗爭》課件
- 社會單位1234+N消防安全標準化管理達標評定標準
- 熔射(熱噴涂工藝)
- 地質災害防治培訓教學課件
- 2022法考刑法歷年真題答案及解析(一)
- 球形網架屋面板安裝專項施工方案
評論
0/150
提交評論