




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、PAGE PAGE 55第八章 博弈論PAGE 225第八章 博弈論霸前面章節對經濟版人最優決策的討啊論,是在簡單環扳境下進行的,沒岸有考慮經濟人之唉間決策相互影響佰的問題。本章討罷論這個問題,建辦立復雜環境下的捌決策理論。開展阿這種研究的的理疤論叫做博弈論,白也稱為對策論(俺Game Th扒eory)。最翱近十幾年來,博伴弈論在經濟學中板得到了廣泛應用絆,在揭示經濟行昂為相互制約性質扳方面取得了重大俺進展。大部分經啊濟行為都可視作霸博弈的特殊情況柏,比如把經濟系埃統看成是一種博白弈,把競爭均衡拌看成是該博弈的扮古諾隘-傲納什均衡。博弈斑論的思想精髓與頒方法,已成為經氨濟分析基礎的必柏要組成部
2、分。版第一節 博弈事凹例扒博弈是一種日常跋現象,例如棋手藹下棋,雙方都要霸根據對方的行動版來決定自己的行拜動,雙方的目的耙都是要戰勝對方礙,互不相容,互安相影響,互相制俺約。一般來講,半博弈現象的特征稗表現為兩個或兩案個以上具有利害吧沖突的當事人處芭于一種不相容的安狀態中,一方的柏行動取決于對方絆的行動,每個當爸事人的收益都取澳決于所有當事人絆的行動。當所有阿當事人都拿定主敗意作出決策時,拔博弈的局勢就暫霸時確定下來。博敗弈論就是研究這辦種不相容現象的俺一種理論,并把罷當事人叫做疤局中人叭(player奧)白。耙博弈論推廣了標稗準的一人決策理霸論。在每個局中鞍人的收益都依賴拌于其他局中人的熬選
3、擇的情況下,班追求收益最大化佰的局中人應該如背何采取行動?顯扳然,為了確定出扳可行的策略,每奧個局中人都必須澳考慮其他局中人岸面臨的問題。下澳面來舉例說明。伴例1拔扳便士匹配隘(Matchi罷ng Penn案ies)頒(跋二人零和博弈)稗設博弈中有兩個捌局中人甲和乙,襖每個局中人都有版一塊硬幣,并且八各自獨立安排硬俺幣是否正面朝上愛。局中人的收益吧情況是這樣的:笆如果兩個局中人愛同時出示硬幣正澳面或反面,那么啊甲贏得元,乙板輸掉元;如果隘一個局中人出示把硬幣正面,另一叭個局中人出示硬昂幣反面,那么甲暗輸掉元,乙贏扒得元。襖表1: 便士扒匹配博弈局勢表阿 乙甲背正面按反面胺正面絆(正,正)板(正
4、,反)氨反面岸(反,正)耙(反,反)岸對于這個博弈,奧每個局中人可選骯擇的策略都有兩敖種:正面朝上和澳反面朝上,即甲岸和乙的策略集合藹都是埃正面澳,熬反面瓣。當甲和乙都疤作出選擇時,博熬弈的局勢就確定昂了。顯然,該博吧弈的礙局勢集合辦是敖(正面板,罷正面),(正面傲,反面),(反芭面,正面),(敖反面阿,愛反面)啊,即各種可能熬的局勢的全體,拔也稱為埃局勢表挨,即表1。挨表2: 甲和百乙的收益表稗 乙絆甲板正面扒反面壩正面稗 氨 阿,哎,胺反面柏,捌 罷 柏,疤每個局中人的收癌益都取決于所有芭局中人的決策,背也就是說,局中跋人的收益是博弈埃局勢的函數。本巴例中,甲的收益安函數皚為:唉,熬,翱,
5、岸;乙的收益函數搬為:霸,板,敗,背。局中人的收益霸函數也可用表格頒或矩陣加以表示啊,并稱其為把收益表藹或敗收益矩陣俺。表2中,甲的澳收益列在左邊,吧乙的收益列在右哀邊。唉該博弈的特點在啊于每個局中人的案收益都是另一個俺局中人的付出,頒即甲和乙的收益扒之和為零,收支笆發生在局內,不扳涉及任何局外人把。這種博弈就是鞍所謂的哎二人零和博弈瓣。習慣上,人們皚喜歡把二人博弈壩的第一個局中人把甲叫做按“岸列芭”百,第二個局中人哀乙叫做八“拜行氨”敗,而且總是把列瓣的收益寫在前面吧(般即左邊稗)把,行的收益寫在柏后面鞍(瓣即右邊柏)搬。澳例2敗絆囚徒難題板(Prison按ers De哎li班m百ma)艾(
6、鞍二人變和博弈)板表3: 囚徒把博弈局勢表愛乙盎甲凹合作班背叛唉合作佰(礙合作,合作鞍)吧(合作,背叛)扮背叛暗(背叛,合作)背(背叛,背叛)按有兩個狂徒甲和斑乙因共同參與了哀一起犯罪活動而背被囚禁收審。他版們可以選擇合作拜,拒絕供出任何百犯罪事實;也可拌以選擇背叛,供扒出對方的犯罪行氨徑。這就是所謂擺的囚徒博弈,也藹叫做囚徒難題。骯博弈的局中人甲捌和乙都有兩種可白選擇的策略:合盎作與背叛。挨囚徒博弈的意義矮在于它可以解釋胺寡頭壟斷廠商的盎行為,關鍵是賦懊予合作與背叛具扒體的經濟含義。盎比如在雙頭壟斷罷的情況下,合作敗可以解釋為背“安保持索要一個高罷價啊”瓣,背叛可解釋為盎“柏降價以爭奪對手鞍
7、的市場芭”柏。右表給出了囚霸徒博弈的局勢表敖。罷局中人可以事先礙討論這局博弈,敗但實際決策必須皚獨立地做出。如把果甲采取合作策把略,不供出乙的芭犯罪事實,那么邦乙就能得到30班00元的收益。扳同樣,如果乙采翱取合作策略,那捌么甲就能得到3礙000元的收益笆。可見,如果甲皚乙雙方都采取合吧作策略,雙方各擺得3000元收愛益。翱但是,審訊者用俺1000元獎賞佰來鼓勵局中人采氨取背叛策略。這吧樣,只要局中人芭選擇背叛,他就骯會得到1000疤元鼓勵,而不管凹另一個局中人會耙采取什么策略。霸需要注意的是,爸囚徒博弈中的貨胺幣支付來自第三佰方按哎局外人,這正是矮囚徒博弈同便士八匹配博弈的不同俺之處。奧曼(
8、A頒umann)1愛987年對囚徒疤博弈給出了一個板特別簡單的描述疤:每個局中人都爸可以對仲裁人簡熬單地宣告鞍“瓣給我1000元隘”鞍或霸“班給對方3000霸元澳”胺。叭表4: 甲和斑乙的收益表頒 般乙岸 哀甲稗合作阿背叛奧合作挨3000, 爸 3000唉 0, 擺 4000芭背叛骯4000, 伴 0拜1000, 凹 1000疤簡單分析一下就矮會發現,如果一隘個局中人采取合把作策略,而另一罷個局中人采取背岸叛策略,那么采把取合作策略的局矮中人的收益為零背,而采取背叛策扒略的局中人的收哀益為4000元背(3000元收斑益再加上100疤0元的背叛鼓勵愛)。如果雙方都懊采取背叛策略,傲則雙方的收益各
9、班為1000元。愛表4列出了甲乙礙雙方的收益情況翱。從收益表可以皚看出,甲乙雙方皚的收益之和不為伴零,而且收益和稗是變化的。因此版,囚徒博弈是一啊種岸變和博弈頒。案直覺上看,甲和敖乙都應采取合作吧策略(互不供出癌對方的犯罪事實百),各得300半0元收益。但從阿收益表可以得出隘這樣的結論:如安果一個局中人認疤為另一個局中人絆將合作,從而他擺將得到3000愛元收益,那么他氨若采取背叛策略擺,就將總共能獲霸得4000元的擺收益;如果他認叭為另一個局中人骯為了得到100巴0元鼓勵而將背爸叛,那么他也就叭只好為了自己也隘取得1000元唉鼓勵而采取背叛耙策略(否則,他百將一無所獲)。擺總之,在收益最唉大化
10、動機的驅使白下,局中人的最斑優選擇是背叛。澳這樣一來,甲乙拜雙方都采取背叛耙策略,各得10扮00元收益;而扒不是都采取合作鞍策略,各得30霸00元。這是一昂個典型的博弈悖柏論,問題的關鍵頒在于每個局中人艾都有背叛的鼓勵邦,而不管其他局礙中人將做什么。盎例3疤百古諾博弈芭(雙頭壟斷:產癌量較量)胺法國經濟學家古八諾(Courn擺ot)于183翱8年以天然礦泉辦井為例,首次建跋立了簡單的雙頭癌壟斷博弈模型,拔其特點是,壟斷鞍廠商雙方都天真搬地以為對方不會巴改變原有產量水笆平,雙方都追求背各自利潤最大化斑。古諾假定:挨吧有兩個天然礦泉拔在一起,分別為拌廠商甲和乙占有班;扮擺兩個礦泉都為自岸流井,生產
11、成本芭為零,邊際成本背也為零;靶鞍甲和乙面對相同疤的需求曲線,采跋用相同的價格;案罷雙方都以為對方熬的產量水平不會哎改變。在這些假巴設前提下,甲和扮乙各自獨立決定瓣自己的產量水平鞍,以求利潤最大伴化。安設按是甲乙雙方共同辦面臨的反需求函扒數。當甲的礦泉擺水產量為芭,乙的產量為疤時,礦泉水的市叭場價格為挨,甲的利潤扮, 乙的利潤為艾。在這個博弈中礙,甲乙雙方的策傲略都表現為選擇拜產量水平,局中壩人的收益即為廠伴商的利潤。當甲巴的產量為熬時,乙以為甲不阿會改變這一產量拌,而選擇一個合吧適的產量水平叭以使自己的利潤吧達到最大。同樣襖,當乙的產量水懊平為版時,甲以為乙不疤會改變這一產量隘,而選擇一個合
12、拌適的產量水平愛以使自己的利潤岸達到最大。伴為了說明這個博挨弈的結果,假設阿甲乙雙方面臨的捌反需求函數翱。用靶表示這局博弈中耙甲選擇的最優產埃量,百表示乙選擇的最扮優產量水平,則百甲乙各自的收益芭分別為背和瓣。由于實現了利暗潤最大化,因此疤解之得:當乙的斑產量水平為佰時,甲決定的產瓣量水平為阿(這是甲對乙的般反應函數);當伴甲的產量水平為埃時,乙決定的產邦量水平為按(這是乙對甲的岸反應函數)。其岸中,懊表示礦泉水市場辦容量(即價格為艾零時的礦泉水需哀求量)。進一步耙求解可得:襖, 即博弈的結矮果是雙方最終各熬占據礦泉市場的矮三分之一。反應熬函數說明,古諾昂博弈中每個局中把人的決策(選定骯的產量
13、水平)不爸但依賴于其他局八中人的決策,而鞍且與市場的容量隘有關。壩例4芭阿貝特蘭博弈奧(雙頭壟斷:價敗格較量)搬古諾博弈模型描八述了雙頭壟斷廠版商之間展開的產翱量較量。實際上霸廠商之間的產量白較量并不如價格岸較量那么普遍,艾寡頭之間應該有半激烈的價格競爭斑。不論市場價格佰如何,只要某一氨廠商降低價格,半而其他競爭對手霸保持原價格不變扒,那么降價廠商半就能占有全部市哀場。這就是說,叭我們假定消費者跋只從最低價格廠哀商那里購買產品板。為此,法國經疤濟學家貝特蘭(半Bertran靶d)于1883瓣年提出了以價格胺為選擇策略的貝半特蘭博弈模型,八反對古諾關于產胺量的博弈模型。笆還以礦泉水為例暗,在貝特
14、蘭博弈般模型中各廠商都礙預期對手不會改奧變價格,從而將骯自己的價格確定爸在利潤最大化的盎水平之上。這就礙是說,貝特蘭博啊弈的構建同古諾靶博弈相似,所不班同的是貝特蘭博背弈中局中人的策半略是選擇價格,癌而古諾博弈局中辦人的策略是選擇熬產量水平。捌貝特蘭博弈中兩矮個局中人甲和乙扒也是面臨相同的佰市場需求函數,傲不過現在價格是擺自變量,產量為疤因變量(古諾模壩型正好相反)。按設市場需求函數岸為矮, 為了分析上柏簡單起見,進一罷步設胺(這里,氨,搬,即與古諾模型拌中的市場需求相案同)。局中人的班收益仍是他所獲般得的利潤。笆如果甲和乙不相敗互勾結串通,當盎乙采取了價格水罷平案時,甲認為乙不岸會改變這一價
15、格扳水平,從而為了佰占領市場而要采巴取低于乙的價格伴水平俺的價格哀,于是甲的利潤疤為藹,乙的利潤為零懊;同樣,當甲采懊取了價格水平背時,乙認為甲不吧會改變這一價格扒水平,從而為了唉占領市場而要采板取低于甲的價格斑水平壩的價格版,于是乙的利潤艾為皚, 甲的利潤為疤零。佰如果甲和乙相互邦勾結串通起來,稗采取相同的價格柏策略,即爸,那么甲和乙就白能索要一個壟斷扮價格,并且每人辦可收取一半的壟斑斷利潤。岸由此可見,甲和奧乙的利潤函數分罷別為: , 背如果甲和乙勾結吧串通,合作起來搬,那么雙方就能般按照最大利潤價艾格隘獲得壟斷價格,隘并且各得最大利氨潤的一半。這里凹,利潤最大化價阿格是按照隘確定的。但是
16、,辦占領市場的誘惑柏對每個局中人都艾存在,只要他稍昂微降價,他就能佰獲得全部市場。板假如甲先進入該百礦泉市場,那么骯甲就按照利潤最斑大化價格$P_阿1=Q_o/(半2b)$獲取最叭大利潤。 繼而吧乙進入這個市場藹,且乙認為甲不皚會改變他的價格耙$P_1$,于襖是乙為了奪取市八場而采取低于甲壩的價格水平班的一個價格奧(班。由于乙奪走了艾市場,甲同樣又霸會采取低于乙的擺價格水平昂的價格扳,以奪回市場。跋這樣不斷往復下藹去,直至最后甲唉乙雙方都把價格暗水平定為零時才版可達到均衡,此八時雙方的收益為捌零,市場各占一斑半(即甲的銷售岸量壩和乙的銷售量翱相等,且瓣)。這就是甲乙扳雙方不合作的結隘果,雙方都
17、變得壩更差。拔以上分析表明:絆把貝特蘭博弈與板古諾博弈作比較搬,對同一市場來胺說,由于選擇了按不同的策略集合半(一個以產量作挨為策略,另一個辦以定價作為策略爸),得出了不同隘的博弈結果,貝阿特蘭博弈的均衡背價格、均衡產量翱和均衡利潤都呈隘完全競爭狀態(熬超額利潤為零)安,而古諾博弈的鞍結果不是這樣;敖再把貝特蘭博弈愛同囚徒難題博弈癌作比較,二者具扳有相似的結構,凹即局中人合作會靶取得最好的結果皚,但利益的誘惑岸促使他們采取不敗合作的行動,致翱使雙方博弈的結版局都變得更差。爸貝特蘭博弈也可凹用囚徒博以來解哀釋:合作是指兩靶個廠商的勾結,霸背叛是指兩個廠拜商獨立行動,沒翱有勾結。合作,白可以索要一
18、個高拜的壟斷價格;背扒叛,則導致市場笆價格為零,雙方藹利潤為零。可見稗,雙方合作起來按,對兩個廠商都瓣有利,似乎應該俺合作。但博弈的頒最終結果是雙方澳都采取背叛策略吧,導致誰也得不傲到利潤。伴本節所舉的這些罷事例說明,寡頭柏壟斷廠商之間展暗開的競爭與較量翱完全可以用博弈擺加以描述和研究胺。實際上,經濟背學中大部分經濟吧現象都可以作為澳博弈的特殊情形般進行研究,比如俺歷史上解決競爭胺均衡的存在性這吧一經濟學基本問藹題時,就把經濟昂系統看成為一局敖博弈。拌為了研究博弈,胺必須抓住博弈現隘象的基本要素,絆這些要素是:局熬中人、策略、收搬益。也就是說,壩博弈可以用局中芭人集合、策略集敗合和收益函數加敗
19、以描述。局中人拌從策略集合中選皚擇一種策略后所按獲得的效用或利佰益,就是局中人癌的收益(pay白offs),也懊叫做得失。我們熬假定每一個局中敗人都知道他自己按和別人的策略集矮合與收益函數,岸這就是說,每個斑局中人的策略集皚合與收益函數為啊所有局中人所共巴知。當然,每個瓣局中人都知道其翱他局中人掌握著哀這些信息和知識安。局中人的收益胺不但依賴于他自笆己的策略選擇,擺而且依賴于其他爸局中人的策略選靶擇。我們再假定愛每個局中人在給霸定的主觀信念下暗會選擇收益最大拌化的行動,并且柏當新的信息根據扒貝葉斯規則到來板時,這些信息會靶得到修正(即根瓣據貝葉斯全概率澳公式從先驗概率背計算后驗概率)凹。疤第二
20、節 策略博骯弈藹為了能夠正確地捌應用博弈論研究拜經濟問題,需要扳對博弈加以準確唉地描述和定義。襖要定義一個博弈岸,需要確定三件疤事情:一是局中白人集合(set扳 of pla熬yers),一吧是局中人的策略拌集合(set 挨of stra鞍tegies)藹,一是局中人的敗收益函數(pa耙yoff fu芭nction)八。這三件事情中耙,確定策略集合壩是至關重要的。懊局中人以策略決頒定勝負,目標是哎使他的收益最大絆化。這種以策略扳定勝負的博弈,八稱為半策略博弈按(game o擺f strat昂egy)。正象矮比較古諾博弈和敖貝特蘭博弈時說邦明的問題一樣,稗用博弈論研究經邦濟問題時,對于岸同一經濟
21、現象,把由于選擇了不同挨的策略集合,得癌到的博弈結果截氨然不同。辦用稗表示博弈的局中辦人集合,昂表示局中人胺的策略集合,白表示拌的收益函數,則敖就表示了一個博按弈。根據局中人敖的多少,博弈可拌分為挨二人博弈伴和哀多人博弈笆。根據博弈的策辦略集合是否有限皚,博弈還又可分安為扮有限博弈懊和暗無限博弈襖。例如,便士匹疤配和囚徒難題都拌是有限博弈,而辦古諾博弈和貝特耙蘭博弈都是無限澳博弈。還可根據瓣所有局中人的收拔益總和是否固定頒,把博弈分為笆常和博弈背和拔變和博弈拔。常和博弈分為跋零和博弈伴(即收益總和為版零的博弈)和哎非零和博弈俺。二人零和有限安博弈是所有博弈矮中最簡單、最重般要的一類,通常版稱為
22、翱矩陣博弈擺。本節以二人博奧弈為重點,介紹把有關策略博弈的八概念與理論。扳一策略表與收柏益矩陣八設二人博弈的局霸中人是甲和乙。叭甲有襖種可選策略,策伴略表為辦;乙有啊種可選策略,策盎略表為柏。當甲采取策略拔,乙采取策略扒時,般稱為博弈的搬局勢芭,集合邦就是皚局勢集合隘(扮局勢表拌、案局勢矩陣哀),即翱每個局中人選擇挨自己的策略時,敖都要考慮對手的岸行動。這樣每個敖局中人的收益不氨但與自己的選擇斑有關,而且與對敗手的選擇有關,吧收益函數是定義哀在局勢集合拔上的函數,這里瓣假定了局中人的邦收益是可以用實凹數來都來計量的唉。用鞍表示局中人甲的瓣收益函數,用班表示局中人乙的把收益函數。由于巴局勢集合懊
23、是有限集合,收稗益函數辦和壩都可用矩陣加以凹表示,這些矩陣拜就稱為阿收益矩陣安。記把,愛,則甲和乙的收哀益矩陣分別為:,礙當罷(常數)胺時,該博弈就是矮常和博弈。否則啊,就是變和博弈胺。局中人的策略挨與收益也可用收芭益表加以表達:壩表1: 博弈盎的收益表斑乙的策略柏甲的策略拔埃,昂,盎唉,辦,耙,唉矮,唉捌,埃,澳絆,辦一般情況下,二擺人博弈可表示成吧。但對于二人常哎和博弈,則可簡般單地表示成拜,其中哀為收益的常數和笆。而矩陣博弈則皚可更簡單地表示啊成挨,或者直接用甲哎的收益矩陣板來表示矩陣博弈搬。霸二最小最大原背理隘局中人的目標是襖選擇使自己收益拌最大化的策略,班我們來分析局中班人如何決策。
24、假昂定甲乙雙方彼此笆了解對方的收益邦表。如果甲通過襖間諜獲悉乙采取伴某種策略胺時,甲必然會采唉取相應的某種策襖略搬,以求自己的收懊益最大,即選擇頒使下式成立:澳但是,當甲不知頒道乙會采取什么胺策略時,如果甲擺是一個避險者,稗那么他必將作最扒壞的打算,以求唉取得較好的效果罷。首先,甲要從辦收益表中找出自八己的每一種策略巴下至少可獲得的瓣收益盎(俺即所能獲得的最奧小收益捌)啊,即先求解盎,然后從這些最昂小收益策略中選半擇出收益最大的昂策略,即鞍“跋從最小收益中選鞍擇最大收益扳”藹。從收益矩陣來稗看這個決策過程百,即甲首先選出芭自己的收益矩陣安的各行的最小值敗,然后從這些最案小值中再選出最霸大值:礙
25、這就是求解策略扒博弈的昂最小最大原理斑,其合理性表現邦為:如果甲采取鞍按照最小最大原埃理確定的策略,唉那么不論乙采取百什么策略,甲都白可至少得到這個版最小最大收益。拔由此可見,最小柏最大原理是能夠罷確保局中人收益艾的一種原理。今鞍后,我們把局中稗人甲按照最小最鞍大原理所確定的懊策略,叫做甲的板穩妥策略板。敗對于局中人乙來擺說,他的決策行伴為和決策過程同皚甲是一樣的,只盎不過乙要依賴于胺收益矩陣壩。乙決策的最小斑最大原理是:乙暗先選出收益矩陣安的各列的最小值擺,然后從這些最擺小值中選出最大般值:岸局中人乙按照最俺小最大原理確定艾的策略,稱為乙扮的哀穩妥策略芭。熬讀者可能會問:挨甲先找出他的收熬益
26、矩陣各列的最氨大值,然后再從跋這些最大值中選氨出最小值,不也哎是一種很好的決巴策辦法嗎?其實般,這種決策辦法骯叫做最大最小法辦,照此辦法做出靶的決策,在甲不絆知道乙會采取什辦么策略的情況下辦不能保證甲的最捌大最小收益能夠敖達到。原因在于翱最大最小法需要吧確定出乙的每種傲策略下甲的最大吧可能的收益。假絆如甲按照最大最柏小法選出了策略艾, 那么當乙采阿用策略胺時,甲可得到最熬大最小收益辦。但是,若乙采半用的不是策略斑, 而是策略案,那么甲如不重埃新選擇他的收益靶矩陣第俺列的最大值的話般,他的最大最小白收益凹就不一定能夠達壩到,這正是最大拔最小法同最小最岸大原理的區別。鞍實際中,在甲不拜知道乙會采取
27、什板么策略的情況下百選定了自己的策愛略以后,乙的策隘略才出臺,為甲瓣也獲悉了乙的這澳一行動時,甲很芭有可能來不及調敖整自己原定的策絆略,從而給甲帶礙來一定的損失。疤因此,最大最小背法在保證局中人靶收益方面不如最鞍小最大原理那么阿保險。邦當甲和乙的穩妥哀策略都已選定時背,二者結合起來岸能否成為博弈的扮結果呢?答案是擺未必。請看下面版二人零和博弈的胺事例。白例1愛.扮 熬高度不確定的博辦弈靶考慮二人博弈背,甲的策略集合骯,乙的策略集合班,甲和乙的收益翱矩陣拌和安通過博弈的收益扒表給出跋(罷見表2拜)搬。礙表2: 甲和叭乙的收益表安乙壩甲隘4,敖1,白2,稗3,翱對于甲來說,澳;對于乙來說,鞍。這說
28、明甲的穩般妥策略是爸,乙的穩妥策略藹是阿。胺但是,當甲采取扮時,乙采取案的收益擺小于采取柏的收益笆,因而乙要改用胺策略頒。在乙改用哎后,甲采取策略般的收益稗小于采取胺的收益擺,因而甲也要改巴用策略捌。而當甲改用班后,乙采用板的收益壩小于采用安的收益拔,于是乙又要改笆回到愛;在乙改回到壩后,甲也要改回稗到收益最大的策鞍略唉。這就讓我們看稗到:當甲采取靶時,乙要采用啊;然后甲改用笆,乙隨之改用鞍;甲再改用敗,乙又改用扒,如此不斷往復骯下去,博弈的結扒局是高度不確定伴的。熬一般來講,要想熬一個二人博弈阿具有確定的結局佰,必須存在這樣癌的局勢凹:捌滿足這個條件的敖的局勢絆,叫做博弈氨的拔均衡伴或澳最優
29、解跋或拔最優局勢疤,其中的耙和皚分別叫做局中人靶甲和乙的頒最優策略笆或擺均衡策略傲。這個條件也就瓣叫做博弈的笆均衡條件氨。捌對于二人常和博敖弈暗來說,昂是博弈的最優解礙當且僅當版數學中,滿足這班個條件的點挨叫做函數暗的奧鞍點扒。因此,把是博弈的最優解捌當且僅當捌是收益函數隘的鞍點扮。下面的定理給佰出了鞍點的判別捌條件。拌鞍點定理隘暗是收益函數鞍的鞍點的充要條骯件是挨:拌證明:拜必要性敖.澳 設百是艾的鞍點,即礙。拔從岸可知,扮對一切安成立,這就蘊含拌著罷,即拜。稗注意,暗。這就證明了半。伴充分性昂設稗滿足版。從隘可知礙;從皚可知瓣。所以,艾,即耙是函數傲的鞍點。絆傲既然二人常和博笆弈的最優解恰
30、好案就是收益函數的敗鞍點,鞍點定理昂告訴我們,當收氨益函數的鞍點存凹在時,利用最小矮最大原理確定的拌博弈局勢就是二岸人常和博弈的最挨優解。八但是,當收益矩斑陣不存在鞍點時半,常和博弈就沒俺有最優解,博弈拜的結局就是高度熬不確定的。鑒于氨此,我們將有鞍跋點的常和博弈稱辦為柏嚴格確定的博弈拔。三反應函數辦博弈叭的局中人總是要邦考慮對手的行動懊,然后確定自己哎的對策。當乙采背取了某種策略懊,而且被甲所覺捌察時,甲必然有叭所反應,要確定把出相應的對策敖以使自己的收益瓣在乙選擇拜的情況下達到最昂大,即要使耙。甲對乙的行動把的這種反應,確頒定了一個從乙的拔策略集合背到甲的策略集合捌的映射暗,即對任何疤,甲
31、的反應策略哎是按照安來確定的。這個敗映射巴就叫做甲對乙的般反應函數俺。挨同樣的道理,可吧以確定出乙對甲矮的反應函數翱,即對任何八,藹是按照搬來確定的。翱利用反應函數,懊我們也可以解釋案博弈的結局。就盎象古諾博弈一樣熬,假如甲先采取盎某種策略隘,乙通過某種途暗徑獲悉了甲的這拔一行動,并認為癌甲不會改變他的百策略,于是作出鞍反應,決定采取澳策略凹,以使自己的收澳益最大化。當乙靶采取策略疤時,甲掌握了這俺一信息,并認為昂乙不會改變他的叭策略,于是作出般反應,改變原來斑的策略,決定采唉用案,以求收益最大昂化。這時,乙再板次對甲的行為作般出反應,采取新靶策略扮。甲也再次對乙辦的行動作出反應盎,采取新策略
32、頒。這樣的反應不背斷下去,直到最奧后達到哎且挨時博弈實現了均鞍衡,此時的局勢岸就是博弈的最優背解跋(拔均衡、最優局勢哎)。靶綜上所述,博弈擺的結局是實現均敗衡,并且均衡由岸甲乙雙方的反應唉函數確定,即由氨方程組暗決定。事實上,澳是該方程組的解扳當且僅當哎,而這正是博弈爸實現均衡的含義胺。注意,以上關氨于反應函數的討唉論,沒有要求策疤略集合的有限性壩,即集合拔和唉可以是任何集合巴。把下面考慮二人無唉限博弈的一種特癌殊情況:策略集挨合昂和罷都是實數區間。扮比如,本章第一矮節例3中古諾博拜弈的局中人策略唉集合就是區間按(半直線),例八4中貝特蘭博弈啊的局中人策略集跋合也是半直線。佰假設局中人甲和懊乙
33、的收益函數岸和襖可微,則甲對乙耙的反應函數背由方程邦(叭一階條件叭)奧決定,乙對甲的耙反應函數熬由方程俺(矮一階條件班)邦決定,從而博弈柏的最優解就是如跋下方程組的解:白例2般柏二人博弈的反應把函數及最優解稗設二人博弈中,稗甲和乙的策略集懊合愛和傲為澳,收益函數暗和跋分別如下:八求偏導數得方程壩組瓣。由此可知局中頒人甲和乙的反應搬函數分別為般,博弈的最優解哀為愛。擺四策略選擇的礙經濟模擬挨第一節中曾經指跋出,描述一個博案弈時策略集合的芭選擇至關重要。皚比較古諾博弈和扳貝特蘭博弈,雖隘然二者的目的都案是要模擬同一經愛濟現象白百雙頭壟斷,但二斑者的結構卻很不胺同。古諾博弈中熬廠商的策略是選版擇產量
34、,廠商的懊收益是策略變量骯的連續函數;而跋貝特蘭博弈中廠哎商的策略是選擇巴價格,廠商的收按益是策略變量的爸非連續函數。這氨導致了相當不同耙的均衡,究竟哪凹一種是正確的呢哎?辦如果抽象地看待扮這個問題,那么邦“按哪一種模型正確芭”按這樣的提問并無矮什么意義。要回阿答這個問題,就巴必須看模型試圖百模擬什么。不要案問哪一種模型是凹正確的,而去問捌策略選擇中什么頒樣的考慮是切入癌主題的,這樣的頒提問可能會更加鞍有益一些。比如跋,如果我們觀察熬OPEC公司的哎公告,就會發現叭OPEC企圖為霸每一個員工決定版產量配額,并且澳允許按照世界石八油市場價格定價捌,這樣按照產量癌水平而不是按價芭格水平來模擬博頒弈
35、策略,就可能挨更加合理。擺在策略選擇的經伴濟模擬中還有另安一方面的考慮,板乃就是一旦對手懊的行為被觀察到壩,那么對手的策熬略應該是被承諾笆的或者是難以改艾變的。然而到目背前為止,所描述絆的博弈是敗“擺一次性靶”白(one-sh背ot)博弈,其捌特點是一旦知道胺對手的行動,策啊略變量可以很快板地進行調整。例昂如,假設我為我扳的產品選擇一個扒價格,然后發現盎我的對手制定了案一個略低一些的半價格,在這種情邦況下我可以很快按地調整我的價格擺。因此,盡管昂“皚一次性跋”骯博弈所描述的現罷象應該是發生在案實際生活中的現壩實,但在扒“奧一次性拌”般博弈中模擬這種捌能夠很快調整的跋策略反應并不具百有多大的意義
36、。氨似乎應該使用多耙階段博弈,這樣把才能捕獲到策略盎選擇行為的所有扮可能的內容。白另一方面,如果辦我們把古諾博弈叭中的產量水平解辦釋成為廠商的生把產能力,那么一扳定產量的產品生把產就可能是不可暗撤消或不可改變版的資本投資。這百種情況下,廠商胺一旦發現對手的昂產量水平,而要翱改變廠商自己的拌產量水平,則可百能是難以辦到或愛非常昂貴的。生霸產能力或產量水艾平似乎是廠商策板略的天然選擇,瓣即使一次性博弈捌中也是這樣。癌同大部分經濟模奧擬一樣,在策略叭選擇的經濟模擬凹中,如果既要讓版博弈簡單明了以鞍便分析,又要能隘夠說明實際策略癌的迭接要素,那耙么如何表示博弈疤的策略選擇,就半是一項藝術。癌第三節 重
37、復博巴弈絆到目前為止,所捌談論的博弈是一挨次性的。其實,按任何博弈都可以熬一次一次地重復八進行,且每一次挨重復都不是簡單絆地重復前一次的擺著法,而會考慮伴得比前一次更全扳面些,技法也會班更高些。就好像拜棋手下棋一樣,暗一局結束了再開暗一局,前一局在岸某些著法上吃了爸虧,這一局中就懊會吸取教訓而加盎以注意,正所謂柏“絆吃一暫,長一智搬”搬。反反復復地開艾局,給棋手不斷艾積累經驗,讓棋瓣手的技藝越來越頒高。藹通過博弈的重復叭進行,局中人的八經驗越來越豐富澳,這種經驗源于礙博弈歷史。實際矮上,重復博弈中頒的每一點處,局凹中人決定自己的癌選擇時會考慮到扮達該點之前的全疤部博弈歷史,比骯如象棋棋手在上哎
38、一局中因出車慢跋而吃了虧,那么翱這一局中就會吸叭取前一局的教訓爸而趕快把車開出疤來。這樣一來,癌重復博弈中局中半人的策略空間隨瓣著博弈被重復的般次數的增加而變辦得越來越大,也藹就是說,博弈歷靶史越長,局中人邦的策略空間越大邦,可以選擇的著爸法越多。由于矮“芭我的對手會基于白我的選擇歷史而爸修正他的行為,傲我必須在做出自稗己的選擇時考慮礙到這種影響愛”扮,所以,重復博版弈的結果不絕不疤是一次性博弈的般簡單重復。藹例1哀.般 扒囚徒博弈的重復傲我們以囚徒博弈搬為例,來分析重班復博弈問題。囚拌徒博弈中,企圖靶獲得胺“熬(合作,合作)啊”靶解是兩個局中人昂的長期利益所在百。對于每個局中骯人來說,可行的
39、奧做法是試著給另埃一個局中人發出皚“懊信號百”澳以表明他的拔“艾善意扳”般,并且在博弈一扳開始移動就進行斑合作。當然,背敖叛是另一個局中斑人的短期利益所矮在。如果他不合癌作而采取背叛策百略,那么對方就巴可能失去耐心而斑從此以后永遠只翱實行背叛。這樣氨一來,背叛者就啊會因只看到眼前擺利益而喪失合作埃的長期利益。基疤于這種推理可以鞍得到的事實是,案一個局中人目前暗的做法將在未來半將得到回應哎背其他局中人的未哎來選擇可能依賴稗于這個局中人當敖前的選擇。礙現在來分析一下俺“背(合作,合作)啊”昂局勢能否成為重半復囚徒博弈的一佰個均衡。我們分拜兩種情況進行討疤論,一種情況是柏有限次重復博弈艾,另一種情況
40、是按無限次重復博弈礙。絆先討論有限次重邦復博弈,為此假凹定每個局中人都把知道博弈將重復跋一個固定的次數叭(比如重復次半)。考慮最后一巴輪博弈實施之前癌局中人給予的推柏理,此時每個人藹都認為他們在進胺行一次性博弈。埃由于這是最后一懊次移動,將來不按會再有,因此均艾衡的標準邏輯推拌理便得以應用,吧其結果是局中人熬雙方都選擇半“靶背叛捌”靶策略。再考慮最跋后一次移動之前奧的移動,這里似骯乎每個局中人都皚重視合作,以向岸對方發出他是版“八好人擺”安的信號,以便能啊在下一次以及最巴后一次移動中合矮作。但是,我們癌已經看到,最后啊一次移動中雙方唉都將采取背叛,跋因此在倒數第二按次的移動中合作捌就沒有什么優
41、勢凹可言。采取合作拔是為了得到長期百利益,為了在將版來最后一次移動柏中得到回應。然奧而,將來最后一敗次移動中并不能靶得到合作,雙方跋都背叛了,結果斑倒數第二次移動澳中雙方也只有采皚取背叛。同理不擺斷向后歸納(b案ackward癌s哀 凹inducti爸on),結果最愛后一次移動之前佰的所有移動中,奧合作并不能帶來拌什么長期利益,爸沒有什么優點,奧局中人惟有相信啊其他局中人將在背最后一次移動中澳背叛,用現在的鞍善意企圖去影響般未來下一次的移擺動是無利可圖的柏。因此,在重復絆某一固定次數的芭囚徒難題重復博爸弈中,每一局博拌弈的均衡局勢都拔是白“瓣(背叛,背叛)癌”扒,而不是般“白(合作,合作)斑”
42、安。啊再來考慮博弈可氨無限次重復的情胺況。當博弈的重藹復次數為無限時扒,情況就大不相芭同了。此時,局吧中人在每一個階耙段都知道博弈至傲少還要重復一次搬以上,因而合作背大有前景,長期跋利益在望。在這扳種無限次重復的阿囚徒博弈中,每拌個人的策略都是稗一個函數序列,伴它表明每個局中懊人在每個階段是霸選擇合作還是選斑擇背叛,都是作叭為此階段之前博安弈歷史的函數。頒重復博弈中,局叭中人的收益是各耙階段收益的貼現按值之總和搬擺貼現和跋(昂向時刻0貼現)昂。具體地說,設懊局中人在時刻阿的收益癌(百即第八局重復中的收益白)板為頒,他在重復博弈礙中的收益就是貼唉現和板,其中八為貼現率。只要敗貼現率不很高,癌囚徒
43、博弈每一局藹重復的均衡局勢案便都是岸“藹(合作,合作)罷”昂,每個人在各個柏階段都會看到合暗作的利益。為了擺說明這個事實,板我們采用第一節擺例2提供的數據佰。哀假設兩個局中人版一直合作,移動翱到了時刻胺。如果本次移動扒中一個人決定背昂叛,那么另一個跋人會因本次移動熬中采取合作而未愛得收益,從而從唉下次以后永遠采辦取背叛策略,給俺對方以懲罰。第暗一個背叛者從本癌次開始,以后只伴能繼續背叛(因翱為合作的收益為癌零),結果他雖拜然在本次移動中拔立即得到了40笆00元的收益,百但也以以后無限伴次的1000元哎收益這個低收益扳流來毀滅自己,哀他從背叛中得到擺的收益貼現和為氨元。另一方面,霸如果他持續合作
44、安下去,永不背叛吧,那么對方也不敗會背叛,于是他敖從合作中得到的氨收益貼現和為辦元。比較伴和叭可知,只要貼現懊率奧,就有岸。這就說明,只白要貼現率不很高耙,當一方背叛時拌,另一方也采取半背叛給其以懲罰傲,就能使背叛者叭償其苦果。由此胺看來,只有雙方熬互相合作下去。骯如有一方背叛,扮另一方就要執行靶懲罰策略來使背扒叛者飽償苦果,哎因而沒有一方能澳夠從背叛中會有翱收獲。所以,在唉貼現率不很高的背情況下,囚徒博翱弈重復的均衡是扳局中人雙方在各柏階段都采取合作拜策略。隘以上論述實際上艾是很有力的,有柏一個稱為弗爾克案(Folk)的挨著名定理支持了把這一論述。該定啊理斷言:在重復爸的囚徒博弈中,啊任何收
45、益如果高矮于局中人雙方一芭致背叛所能得到扒的收益,那么都凹將被作為重復博把弈均衡而得到支般持。上面我們還愛提到了懲罰策略澳,實際上這個策班略可明確敘述成俺:扮“哎在當前移動中合般作,除非其他局盎中人在最后移動白中背叛傲”邦。采取這個策略柏的理由是,如果搬一個局中人背叛拔,那么他將在收挨益上得到永久性昂懲罰。另外,上叭面論述中還涉及藹到了貼現率,并皚要求貼現率不很鞍高。實際上,當阿貼現率很高時,敖當前收益就是特罷別重要的,因為鞍將來的貨幣貶值壩太大了,現在的皚收益要抵得上將按來收益的好幾倍翱,因而當事人只邦好顧及當前收益案,力求當前收益哀越多越好,而把隘未來長遠利益放癌在次要位置上。邦下面再看一
46、個雙鞍頭壟斷的重復博扒弈事例。骯例2盎辦維持卡特爾罷考慮一個簡單的隘重復雙頭壟斷,邦如果兩個廠商都藹執行古諾博弈均瓣衡策略,則得到哀利潤搬;如果以共同利拌潤最大化決定產挨量水平,即執行鞍卡特爾行動,則埃得到利潤壩。我們知道,一敗次性博弈中共同跋利潤最大化的產隘量不是博弈均衡鞍,每個廠商都有安激勵去傾銷額外翱數量的產品,如襖果他認為其他廠鞍商將保持產量不隘變的話。但是在疤重復博弈中,只壩要貼現率不太高把,合作起來以使爸共同利潤最大化鞍之策略,將是重襖復博弈的最優解暗。襖可以證明,如果案這種簡單的雙頭拜壟斷博弈是一次半性的,那么每個巴廠商以古諾產量擺生產將是博弈的靶最優解。但是,絆如果這個博弈是吧
47、不斷重復的,那唉么每個廠商都采霸取按照卡特爾產安量生產的策略,搬即都選擇合作,叭將是雙頭壟斷重芭復博弈的最優解扒。對不合作的適頒當懲罰,是采取班生產古諾產量水艾平這一策略。可氨見,在不斷重復拔的雙頭壟斷博弈板中,由于一次性癌博弈均衡這種懲般罰策略的存在,按局中人都將以長柏遠利益為重,來巴維持卡特爾。昂第四節 混合策澳略版并非所有博弈都拔有嚴格確定的結埃局。進一步,實安際中博弈局中人俺常常希望自己的版行動隱秘不被暴版露,不被對手覺矮察。對于這兩個芭問題,目前意義班上的策略博弈是唉解決不了的。在骯博弈非嚴格確定矮或者局中人希望般保守秘密的情況哎下,局中人的最安好做法是采取混捌合策略,即以一挨定的概
48、率采取某胺種策略。這樣做板,甚至連局中人背自己也不知道每襖一次行動中究竟跋采取什么策略,柏競爭對手就更不隘得而知了。而且扳對于非嚴格確定把的博弈來說,采翱用混合策略就可靶求得最優解。當昂一種混合策略以藹概率1選擇某種疤策略時,這種策艾略就是前三節所叭談論的把“版純澳”耙策略,可見混合巴策略擴展了策略暗概念。唉一混合策略的骯概念唉我們以兩人博弈拜為例,來對混合擺策略的概念以及癌采取混合策略時安局中人的行動目敖標進行解釋。至隘于更一般的多人辦博弈,將在下一癌節中討論。稗設搬為有限二人策略安博弈,其中礙為局中人甲的策笆略集合,邦為乙的策略集合澳,澳和背分別為甲和乙的百收益函數。唉局中人為了保持百自己
49、決策的秘密扮性,不再象以前奧那樣選擇純策略爸,而決定采用隨芭機辦法來選擇策皚略。也就是說,啊局中人對純策略八的選擇由某種隨襖機裝置來決定,擺對每個純策略來般說,采用它只有板可能性的大小,案也就是用多大的哀概率來選擇各個隘純策略。這樣,班對方就不可能事白先知道究竟選擇笆哪個純策略,甚啊至連局中人自己罷也不可能事先知辦道,而純策略是跋在最后時刻借助佰隨機裝置選擇出叭來的。通過借助捌隨機裝置,局中板人原來對純策略骯的選擇變成為現捌在對各個純策略般的概率大小的選敖擇。襖如果還嫌借助隨班機裝置給出的選艾擇各個純策略的熬概率大小具有一百定的客觀性,怕扮被對方估計出來骯,局中人還可進霸一步采取主觀概耙率分布
50、,以使對安純策略的選擇帶辦有真正的不確定皚性(參見第六章敗關于主觀概率的搬介紹)。凹這種以某種概率矮選擇的策略就是邦混合策略,更準邦確地說,選擇混懊合策略就是選擇疤一個概率分布,拔然后按照這個分擺布給出的概率來奧選擇各個純策略暗。假如甲選擇策頒略扮的概率為版 頒,唉,則向量斑代表著甲選擇各傲種純策略的概率氨分布,實際上就芭表示了甲的一種骯混合策略。這就辦是說,混合策略哎是用概率分布邦來表示的,混合敖策略的變化完全板反映為概率分布懊的變化。今后,班我們把概率分布霸就稱為局中人甲拜的捌混合策略柏。挨原來的純策略挨可看成是這樣的懊一種混合策略:八以概率1選擇策伴略岸,以概率0選擇笆其他策略壩。如此一
51、來,甲皚的策略集合由原拌來的純策略集合澳擴張成為混合策愛略集合伴。同樣,局中人啊乙的選擇集合也挨由原來的純策略稗集合澳擴張成為混合策氨略集合胺。當甲采取混合皚策略拜,乙采取混合策拌略背時,襖就稱為博弈把的擺混合局勢暗。傲在采取混合策略班的情況下,局中頒人的目標是要使拔預期收益最大化白。當甲采取混合柏策略般,乙采取混合策翱略版時,甲和乙的預啊期收益分別為暗和哀:版這里,唉和背都寫成行向量形熬式,罷“擺”翱為轉置運算。甲扒的收益函數由原傲來的白擴充成為跋,乙的收益函數拜由原來的案擴充成為版。盎在策略集合和收瓣益函數都得到擴唉充以后,原來的昂純策略博弈岸就擴充成為混合扳策略博弈白,而且板可看成是一般
52、的半二人博弈,不過辦這個博弈的收益唉函數具有雙線性搬性,即對于任何背,扳,及任何實數扒,都成立:拜的混合局勢就是盎的局勢。博弈氨叫做純策略博弈扒的壩混合擴充骯。關于混合擴充盎,下述兩個事實骯是明顯的:骯(1) 罷博弈辦是常和博弈當且矮僅當混合擴充安是常和博弈爸。板(2) 敖如果叭是常和博弈,則搬混合擴充啊保持了原來博弈版的收益和傲。啊混合擴充瓣的最優解跋(昂均衡唉)艾,叫做原博弈爸的拔最優混合解敖(唉混合均衡昂)奧。也即挨是疤的最優混合解,盎是指熬且昂。當瓣是把的最優混合解時啊,捌和頒分別叫做甲和乙斑的拜最優混合策略柏。可以證明:叭(3) 岸純策略博弈辦的最優解必然是岸混合擴充巴的最優解胺。稗
53、(4) 吧當拔是常和博弈時,靶是捌的最優混合解當拔且僅當拔。霸從班(4)皚可知,扮是常和博弈把的最優混合解當襖切僅當班是預期收益函數頒的鞍點。應用第敖二節的鞍點定理扳,我們得到常和擺博弈的最優混合鞍解的又一判別條阿件:隘(5) 般設板是二人常和博弈愛,則翱是班的最優混合解的氨充分必要條件是扳 俺。盎二混合策略的澳意義罷有時,給予混合敖策略一個有意義敗的解釋是困難的岸。第一節例1所把述的便士匹配博艾弈,由于收益矩隘陣沒有鞍點,因罷而沒有純策略意爸義下的最優解。把但由于硬幣出現矮正面或反面,總擺有一個概率分布絆情況,因此采取俺混合策略來把便奧士匹配博弈加以捌擴充,然后尋找巴混合策略意義下拔的最優解
54、,這顯疤然是我們大家都佰能夠感覺得到的搬應該采取的做法拔。然而對于象雙邦頭壟斷這樣的一拜些其他經濟利益板博弈來說,采取挨混合策略似乎是絆不現實的。頒除了混合策略在襖一定范圍內缺乏敗現實意義外,還扳有一些邏輯上的半原因導致對混合霸策略難以解釋。傲我們用一個例子安來說明這一點。唉例1埃傲性別博弈埃(Battle背 of the骯 Sexes)性別博弈收益表叭卡夫芭茹達胺話劇阿足球把話劇澳2,1暗0,0版足球版0,0敗1,2靶這里介紹的博弈八背后隱藏的故事扮是一場般“靶性別之戰壩”氨。茹達(Rho皚nda,女)和佰卡夫(Calv霸in,男)本周熬末一起歡度良宵阿,但他們二人的擺娛樂愛好不同。擺茹達喜
55、歡看話劇耙,而卡夫喜歡看拌足球比賽。如果盎他們同時選擇看跋話劇,則茹達可拌得2個單位的效把用,卡夫可得1阿個單位的效用;跋如果同時選擇看奧足球比賽,則他扳們得到的效用正艾好與此相反;如稗果他們選擇不同吧的娛樂,則得不安到任何效用。右擺表給出了茹達和懊卡夫的收益情況傲。我們來看一看巴茹達和卡夫之間斑這場凹“罷性別之戰哀”按博弈的結局究竟凹如何。凹首先,讓我們尋啊找該博弈的所有扒純策略意義下的矮最優解。通過對斑各種策略進行逐啊一相互比較,不襖難看出版“埃(話劇,話劇)按”絆和昂“擺(足球,足球)伴”絆都是純策略最優班解,即茹達和卡癌夫選擇相同的娛拔樂,才是最好的襖做法。柏然后,我們來尋拜找混合策略
56、意義隘下的最優解。茹拜達的收益矩陣把和卡夫的收益矩半陣澳為:,背茹達的預期收益扮為瓣,卡夫的預期收骯益為隘。因此,最優混版合策略問題可歸阿結為如下的約束耙極值問題:邦應用Kuhn-扳Tucker條背件(參見第七章頒第八節),上述八極值問題的解為八,敖,壩,柏。這就是說,茹盎達以概率敗選擇看話劇,以翱概率傲選擇看足球比賽背;卡夫以概率皚選擇看話劇、以半概率稗選擇看足球比賽澳,是性別博弈的柏最優混合局勢。胺這個最優解有這岸樣幾個特點:第挨一,茹達和卡夫瓣采取最優混合策班略的預期收益都稗等于2/3;第罷二,如果茹達采皚取最優混合策略疤,那么不論卡夫扳采取什么純策略癌,卡夫的預期收叭益也都是2/3傲;
57、第三,如果卡哀夫采取最優混合凹策略,那么不論稗茹達采取什么純凹策略,她的預期稗收益也都是2/拜3。這樣一來,傲還有什么理由要拌求茹達和卡夫雙邦方都采取最優混敖合策略呢?看來稗,要想人們采取斑混合策略,必須挨有一些更加令人把興奮的理由。芭本例說明,從邏吧輯上講,采用混疤合策略沒有多少哀道理。盡管如此鞍,在某些情況下柏這種邏輯上的毛芭病不會帶來嚴重百問題。例如,假哀定有一大群人在皚隨機碰面并玩便敗士匹配游戲,甲伴是其中一員。設哎最初每個人都按皚概率分布(1/搬2,1/2)執伴行唯一的最優混藹合策略,到最后疤有些人便厭倦于隘執行此混合策略隘,而決定總是玩傲正面游戲或總是愛玩反面游戲。如罷果決定總出正
58、面白的人數等于決定半總出反面的人數稗,那么各個局中按人的選擇問題不般會有明顯變化:邦每個人仍然理性辦地以為他的對手氨以50的可能白性出正面或反面皚。也就是說,雖擺然每個人都決定板采取純策略而總俺是出正面或反面般,但當甲隨機碰昂到一個局中人時斑,該人是出正面翱還是反面,甲不捌得而知,只能作唉出這樣的判斷:熬該人出正面的可把能性為50。八這等同于該人采凹取混合策略。叭對混合策略的另壩一種解釋是:考懊慮某人在一次性柏博弈中出正面還艾是反面的選擇,艾這個選擇被看作頒是依賴于一些為跋對手所不能確定疤的特殊因素。比熬如,該人心想暗“版正面藹”半時就出正面,心愛想罷“稗反面奧”伴時就出反面。這氨種俺“氨心想
59、胺”罷因素是很難為對鞍手所把握的,一辦個人可以自我覺般察到自己的心情傲,但其他人(對鞍手) 卻難以覺跋察這個人的心情礙。因此,每個局版中人都會認為其拔他人對策略的選盎擇是隨機的。這爸樣,采取混合策疤略就是一件有意絆義的事情。疤第五節 矩陣博安弈的古諾均衡把前面介紹的博弈挨最優解(均衡)稗概念,假定了局把中人各自獨立行柏動,沒有合作。安這種非合作二人擺博弈均衡概念,熬最早是由古諾提案出來的,稱為古白諾均衡。無合作皚意味著局中人之壩間存在著利害沖版突,互相對抗,辦互為對手。矩陣叭博弈愛(哎即二人零和博弈版)艾是對這種或對抗拌狀態的簡明刻畫叭,本節就下面就頒矩陣博弈均衡的吧存在性與算法問罷題及其均衡
60、的性挨質進行討論。柏一均衡的存在疤性氨收益矩陣的鞍點氨未必存在,這使背得矩陣博弈的均絆衡未必存在。但挨當采用混合策略罷時,情況就不同班了:矩陣博弈的岸最優混合解總是拜存在的。下面用板von Neu罷mann(19阿37)的構造性柏方法來證明這一霸事實,構造性方安法本身蘊含著古扒諾均衡的一種計班算方法。鞍矩陣博弈均衡的半存在性按捌任何矩陣博弈都版有混合均衡奧。般具體來說,設背 拜為矩陣博弈暗,矮,阿,哎為叭的混合擴充,則邦必存在耙滿足挨。傲本定理的證明較昂長,會令讀者感拜到枯燥。但證明安過程給出了古諾瓣均衡的計算方法斑,學習掌握這一吧計算方法是重要扳的,讀者有必要襖靜下心來琢磨一盎下。佰首先注意
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 資產配置中的風險對沖策略考核試卷
- 茶葉店選址與商業環境分析考核試卷
- 職業發展與個人品牌打造考核試卷
- 米制傳統藥膳食品加工技術考核試卷
- 旅館業客戶關系維護與忠誠度管理考核試卷
- 趣味數學活動計劃與實施
- 人教版語文三年級上冊4.1花鐘練習卷2
- 某年度細菌類診斷抗原競爭策略分析報告
- 中學2025年課程設置優化計劃
- 水利工程質量控制計劃
- 電廠水化驗員職業技能鑒定題庫(高級工)第001套
- 卵巢非良性腫瘤生育力保護及保存中國專家共識(2024年版)解讀2
- NB/T 11454-2023凍結法鑿井風險管理規范
- 2024年廣東省廣州南沙經濟技術開發區商務局招聘編外1人歷年(高頻重點復習提升訓練)共500題附帶答案詳解
- 中國醫院質量安全管理第 2-5 部分:患者服務 預約服務
- NB-T31056-2014風力發電機組接地技術規范
- 羅蘭貝格-上海浦東機場臨空產業規劃及開發實施方案-201509
- 《外國詩二首》課件-部編版語文七年級下冊
- DL-T-5743-2016水電水利工程土木合成材料施工規范
- 湖南省雅禮中學高三4月考-新高考數學試題試卷
- 中國血脂管理指南(基層版2024年)
評論
0/150
提交評論