經(jīng)濟學-博弈論課件_第1頁
經(jīng)濟學-博弈論課件_第2頁
經(jīng)濟學-博弈論課件_第3頁
經(jīng)濟學-博弈論課件_第4頁
經(jīng)濟學-博弈論課件_第5頁
已閱讀5頁,還剩299頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

博弈論:第一章導言第一節(jié)社會與人、效率1、社會的兩個基本問題協(xié)調(diào)(coordination)合作(cooperation)協(xié)調(diào)問題:以交通為例靠左行靠右行靠左行靠右行AB1,11,1-1,-1-1,-1協(xié)調(diào)問題的核心是預測(prediction):預測其他人如何行為合作問題合作不合作合作不合作AB3,30,0-1,44,-1合作問題的核心是激勵(incentive)個人行為與社會利益的沖突什么是個人的最優(yōu)選擇?什么是社會的最優(yōu)選擇?如何把個人行為與社會利益統(tǒng)一起來?協(xié)調(diào)與合作相互作用如交通問題;如密云元宵節(jié)慘劇;如SARS問題,禽流感問題;如恐怖主義問題;如經(jīng)理與工人;如股東與經(jīng)理;如政府與居民;(毒奶粉、茶油、小龍蝦等)等等。社會問題及其解決辦法社會分工:社會制度:個人的行為規(guī)則正式制度;明規(guī)則,法律非正式制度;潛規(guī)則,社會規(guī)范,文化價格制度;非價格制度。2、理解人的行為所有社會科學都是有關人的行為的科學,但不同學科的方法、假設、著眼點不同;經(jīng)濟學:從個人到社會(frommicrotomacro)社會學:從社會到個人(frommacrotomicro)心理學:用觀察、實驗的方法看人們實際上是怎么行為的。(行為科學)關于理性人假設理性人的定義:有一個很好定義的偏好(well-definedpreference);在給定約束下追求偏好的最大化(maximization)偏好是如何形成的?關于偏好的假設:完備性(completeness):任何兩個可選擇的方案之間都是可比較的;傳遞性(transitivity):(偏好具有一致性)偏好函數(shù)如果偏好滿足其他一些假設(特別是連續(xù)性假設),可以定義一個偏好函數(shù)或稱效用函數(shù)(utilityfunction);無差異曲線XYAB約束條件技術性約束:如一天工作不能超過24小時;制度性約束:如晚上12點必須熄燈;信息約束:如你并知道這門課有什么價值;對他人行為的預期對理性人假設的批評有限理性(boundedrationality):intendedtoberational,butonlylimitedtobeso.Cognitiveability(limitedcomputationalskillandseriousflawedmemories)有限毅力(boundedwillpower);Present-biasedpreference有限自利(boundedself-interest)emotionalbehavoir3、效率標準問題:社會是由人組成的,每個人的行為都會影響到他人的利益。那么,我們用什么樣的標準判斷個人的行為是否正當?考慮兩種情形:情形A:某店主雇人將競爭對手的店門堵上,使后者不能營業(yè);情形B:某店主以更低的價格和更優(yōu)良的服務將競爭對手打垮。這兩種情形有什么不同?為什么法律允許第二種情形而不允許第一種情形?(1)帕累托效率定義:一種狀態(tài)(資源配置、社會制度等)被稱為帕累托最優(yōu)狀態(tài),如果不存在另一種狀態(tài)能使得沒有任何人的處境變壞同時至少有一個人的處境變得更好。簡單的說法是:對每個人來說,除非“損人”就不可能“利己”,社會就達到了帕累托最優(yōu)狀態(tài)。不同帕累托狀態(tài)之間不可以比較所以,帕累托最優(yōu)可能意味著收入分配的不公平;極端地,一個人得到所有收入,另一個人一無所有,也是一個帕累托最優(yōu)以兩人社會為例A的收入B的收入XYZ。。。X和Y都是帕累托最優(yōu)狀態(tài),但Z不是帕累托最優(yōu)狀態(tài)帕累托改進與帕累托標準定義:一種變革沒有使任何人的處境變壞,至少有一個人的處境變好。如果一種狀態(tài)不是帕累托最優(yōu),意味著存在帕累托改進的可能。如果社會已經(jīng)處在帕累托最優(yōu)狀態(tài),就不可能有帕累托改進的余地。狀態(tài)X帕累托優(yōu)于狀態(tài)Y,如果在狀態(tài)X下,至少有一個人的處境比狀態(tài)Y下更好,而沒有任何人的處境比在狀態(tài)Y下壞。兩人社會為例A的收入B的收入。Z。F。X。G。H從Z到F、X是帕累托改進;從Z到H、G不是帕累托改進;從H、G到X、F、Z都不是帕累托改進(2)卡爾多-希克斯(Kaldor-Hicks)標準設想:狀態(tài)X下,A的收入是100,B的收入也是100;在狀態(tài)Y下,A的收入是1000,B的收入是99。依帕累托標準,這兩個狀態(tài)是不可比較的:A在狀態(tài)Y下更好,B在狀態(tài)X下更好。卡爾多-希克斯標準:如果一種變革使得受益者的所得足以彌補受損者的所失,這種變革就是一個卡爾多-希克斯改進。如果補償實際發(fā)生,就是帕累托改進。因此,“卡爾多-希克斯標準”就是“財富最大化”。舉幾個應用一:交易效率人們?yōu)槭裁唇灰祝浩貌煌簧a(chǎn)成本不同;信息不同;風險態(tài)度不同。自愿的交易一定是一個帕累托改進(假定沒有欺詐)設想:A擁有10個蘋果,0個桃;B擁有10個桃,0個蘋果。如果邊際效用是遞減的,A用5個蘋果換B的5個桃,對雙方是一個帕累托改進;交易的結果:各有5個蘋果和5個桃。市場:供給與需求數(shù)量價格需求曲線(消費者的評價)供給曲線(生產(chǎn)者的成本)均衡價格均衡產(chǎn)量為什么壟斷是沒有效率的數(shù)量價格需求曲線(消費者的評價)供給曲線(生產(chǎn)者的成本)均衡價格均衡價格壟斷價格壟斷產(chǎn)量舉幾個應用二:競爭規(guī)則設想有一個商店。如果一個人使用暴力搗毀這個商店,然后在旁邊辦起自己的商店銷售同樣的東西,這種行為就構成犯罪。但如果這個人用較低的價格和更好的服務擠這個商店,他就無須為此承擔責任。從該商店的所有者來看,結果是一樣,但為什么法律的規(guī)則不一樣呢?原因在于后一種情況下,社會的所得(包括消費者和新店的所有者)大于所失,是一個卡爾多-希克斯改進,而在前一種情況下,不如此。一般地,什么是所謂的社會允許甚至鼓勵的“正當競爭”?答案是“卡爾多-希克斯標準”。舉幾個應用三:生產(chǎn)效率生產(chǎn)可行性邊界小麥玉米。X非效率點舉幾個應用四:分工效率如果兩個人同時生產(chǎn)兩樣產(chǎn)品(面包和牛奶),每人的產(chǎn)量為(50,50),總產(chǎn)量是(100,100);如果A專業(yè)化于生產(chǎn)面包,產(chǎn)量可以達到150;B專業(yè)化于生產(chǎn)牛奶,產(chǎn)量可以達到140;那么,分工與不分工比較,就是一個帕累托改進,因為總產(chǎn)量可以達到(150,140)。絕對優(yōu)勢與比較優(yōu)勢。經(jīng)濟增長很大程度上來自分工效率。舉幾個應用五:合作與組織如果兩個人在一起工作創(chuàng)造的價值大于獨立工作創(chuàng)造的價值之和,合作就是一個帕累托改進;當只當組織的價值必須大于個人獨立的價值之和時,組織是可能一個帕累托改進;當個人才組織中獲得的價值大于獨立獲得的價值時,加入組織是一個帕累托改進;1+1》2企業(yè)戰(zhàn)略聯(lián)盟:只有當聯(lián)盟是一個帕累托改進時,聯(lián)盟才會出現(xiàn)。舉幾個應用六:企業(yè)重組以鄭百文為例:到2000年6月30日止,鄭百文的債務總額達23.46億,其中對信達資產(chǎn)管理公司負債20.99億;在鄭百文的資產(chǎn)中,固定資產(chǎn)2.5億,流動資產(chǎn)61686萬(其中大部分是高風險的應收帳款);鄭百文的每股凈資產(chǎn)為-6.81元,股東權益為-13.458億。鄭百文應該破產(chǎn)清算,還是進行資產(chǎn)重組?清算意味著著除債權人外,其他參與人的價值均為零;因此,只要債務人從重組得到的價值不低于預期可收回的債權,重組對所有參與人是一個帕累托改進。解雇員工能成為一個帕累托改進嗎?舉幾個應用七:社會改革如果改革中沒有人受損,至少有一些人受益,改革就是一個帕累托改進;如果改革使一部分人受益,另一部分人受損,但受益者所得大于受損者所失,改革是一個卡兒多-希克斯改進,或者說,潛在的帕累托改進;如果受損者得到足夠的補償,就是一個帕累托改進;革命通常不是一個帕累托改進。舉幾個應用八:婚姻家庭自由結婚對夫妻雙方是一個帕累托改進;買賣婚姻對買賣雙方是一個帕累托改進;離婚不一定是一個帕累托改進;但如果提出離婚的一方愿意補償另一方,使得對方同意離婚,離婚就是一個帕累托改進;所以,協(xié)議離婚是一個帕累托改進。但離婚對其他利益相關者(如父母和兒女)可能不是一個帕累托改進。以什么為比較的基礎:第三者問題4、外部性與科斯定理個人收益與社會收益:一項活動的社會收益等于決策者個人得到的收益加社會其他成員得到的收益,如養(yǎng)花;個人成本與社會成本:社會成本等于決策者的個人承擔的成本加社會其他成員承擔的成本,如環(huán)境污染,交通堵塞;如果個人收益(/成本)不等于社會收益,我們說存在外部性。個人最優(yōu)決策與社會最優(yōu)理性人的最優(yōu)決策:邊際個人成本等于邊際個人收益;當然,目標函數(shù)很重要;社會最優(yōu)決策(帕累托最優(yōu)):邊際社會成本等于邊際社會收益;因此,除非沒有外部性,個人最優(yōu)決策不等于社會最優(yōu)決策。圖示說明:社會成本大于個人成本產(chǎn)量邊際成本與邊際收益邊際個人收益(等于邊際社會收益)邊際個人成本邊際社會成本個人最優(yōu)產(chǎn)量社會最優(yōu)產(chǎn)量邊際外部成本圖示說明:社會收益大于個人收益產(chǎn)量邊際成本與邊際收益邊際個人收益邊際個人成本(等于邊際社會成本)個人最優(yōu)產(chǎn)量社會最優(yōu)產(chǎn)量邊際社會收益舉例環(huán)境污染;夜間施工;交通事故;壟斷定價;國有企業(yè)的惡性競爭;教育;政府管制、征稅與科斯定理個人最優(yōu)與社會最優(yōu)的不一致意味著有帕累托改進的余地;核心是:如何將外部性內(nèi)部化:如果有辦法使得個人在邊際上承擔全部的社會成本和獲得全部的社會收益,問題就解決了;傳統(tǒng)的理論:政府管制或?qū)€人征稅(或補貼);在負外部性的情況,征稅和補貼代表不同的產(chǎn)權安排。征稅或補貼如何解決問題?產(chǎn)量邊際成本與邊際收益邊際個人收益(等于邊際社會收益)邊際個人成本(無稅情況)邊際社會成本(加稅后的邊際個人成本)個人最優(yōu)產(chǎn)量社會最優(yōu)產(chǎn)量邊際稅率=邊際外部成本科斯定理Coase(1960):只要產(chǎn)權界定是清楚的,如果沒有交易成本,外部性可以通過當事人之間談判解決,帕累托效率可以實現(xiàn);并且,最終的資源配置與初始的產(chǎn)權安排無關。比如說:夜間唱歌科斯定理圖示牧養(yǎng)人放牧的數(shù)量牧羊的邊際利潤農(nóng)場主的邊際凈損失社會最優(yōu)量PSO說明如果產(chǎn)權歸農(nóng)場主,農(nóng)場主可以禁止放牧(點0),小于社會最優(yōu)量S;但此時,增加放牧給牧羊人帶來的邊際利潤大于給農(nóng)場主造成的損失,牧羊人將有積極性賄賂農(nóng)場主,直到放牧量達到S為止;如果產(chǎn)權歸牧羊人,牧羊人的利潤最大點是P,大于社會最優(yōu)量S;但此時,減少放牧量對牧羊人的邊際利潤損失小于給農(nóng)場主節(jié)約的邊際成本,所以,農(nóng)場主將有積極性賄賂牧羊人,直到S;因此,無論初始產(chǎn)權如何安排,雙方談判可以實現(xiàn)帕累托最優(yōu)。科斯定理意味著:如果沒有交易成本,公司治理結構(包括股權結構)是無關緊要的交易成本與次優(yōu)選擇定義:交易成本包括所有與交易有關的成本,包括發(fā)現(xiàn)交易對象的成本、談判成本、簽約成本、執(zhí)行成本,以及所有可能的效率損失(與帕累托最優(yōu)比較);交易成本存在的原因:交易者的數(shù)量(人越多,達成本協(xié)議越難)信息不對稱(信息越不對稱,談判越難,合同的執(zhí)行也越難)交易成本意味著:只有次優(yōu),沒有最優(yōu);作為激勵機制的法律法律通過責任的分配和賠償/懲罰規(guī)則是實施,將個人行為的外部成本內(nèi)部化,誘導個人選擇社會最優(yōu)的行動;如果個人之間簽約的交易成本太高,法律可以節(jié)約交易成本;以交通事故為例:司機開車可能傷害他人,但要每個司機與所有可能的受害人簽定合同是不可能的,侵權賠償替代了合同;但法律面臨信息約束。民法與刑法的不同訴訟:民法是“民不告,官不糾”;刑法是“民不告,官也糾”(政府是公訴人);責任程度:民法的賠償基本上是補償性的;刑法的處罰是懲罰性的;形式:民法的賠償以貨幣形式為主;刑法的處罰以非貨幣形式為主(自由和說明)民法與刑法的界線侵權的外部性程度:受害人越多,越適合于刑法;懲罰的可性度:如果民事制裁不可信,就需要刑事制裁;復仇的可能性:如果私人復仇會導致傷害的不斷升級,就需要用刑法替代民法。第二節(jié)什么是博弈論我們首先看幾個例子。例1.1石頭、剪刀、布豬八戒石頭剪刀布孫悟空石頭未定,未定休息,找水找水,休息剪刀找水,休息未定,未定休息,找水布休息,找水找水,休息未定,未定例1.2諾曼底登陸德軍加來設防諾曼底設防盟軍加來登陸失敗,成功成功,失敗諾曼底登陸成功,失敗失敗,成功例1.3鴿派和鷹派美國鴿派政策鷹派政策蘇聯(lián)鴿派政策0,0–1,+1鷹派政策+1,–1–∞,–∞從上面的三個例子中,我們可以概括出一個博弈所具有的共同特征:利益相沖突的參與者、參與者總是根據(jù)對手可能采取的策略來采取相應的行動----相互依存的策略和行動、參與者總是追求自身利益最大化。根據(jù)這些共同特征我們就能給出一個博弈的定義,只要符合這個定義,就可以將其納入到博弈論的研究范疇之中。定義1.1

博弈是指利益存在沖突的決策主體(個人,企業(yè),集團,政黨,國家等等)在相互對抗(或合作)中,對抗雙方(或多方)相互依存的一系列策略和行動的過程集合。

在定義1.1中,我們最需要注意的就是策略的相互依存性。對于策略的相互依存性,傳統(tǒng)的經(jīng)濟學不是不想研究,而是缺乏有效的工具。從這個意義上而言,博弈論正是為了解決這一問題而產(chǎn)生的。也是從這個意義上講,我們有了博弈論的定義。定義1.2

博弈論是專門研究博弈如何出現(xiàn)均衡的規(guī)律的學科。正是由于博弈論將博弈如何出現(xiàn)均衡列為核心,因而博弈論對于各門社會科學而言,就具有了方法論意義,成為各門學科的有力分析工具。第三節(jié)博弈論的經(jīng)濟學淵源博弈論與經(jīng)濟學存在著不解之緣,主要是由于下面幾個方面:(1)博弈論的核心問題是經(jīng)濟學最早提出并加以系統(tǒng)研究的。(2)博弈論理論發(fā)展主要是經(jīng)濟學的需要推動的,也主要是由經(jīng)濟學家加以發(fā)展。(3)博弈論中的主要問題基本上都涉及到經(jīng)濟利益沖突問題。一、模型所謂模型通俗地說就是一個對某種現(xiàn)象進行說明與解釋、甚或推演的邏輯體系。模型的形式多種多樣,并不一定必須是數(shù)學建立起來的才能稱為模型。一個模型通常有三個最基本的部分組成:理論假設邏輯推理理論假說評判一個模型是好是壞關鍵取決于實踐檢驗,但由于模型總是簡化的,因而檢驗并不像我們想象的那么簡單。實際上,當我們觀察到一個現(xiàn)象,將其抽象為一個模型的過程實際上就是一個簡化的過程,簡化不同可能得出完全矛盾的結論,真理與謬誤相差只不過是毫厘之間,所謂既科學也是藝術就是這個道理。二、博弈論的經(jīng)濟學淵源

經(jīng)濟學的一些思想為博弈論提供了基礎,其中最重要的就是所謂的“理性人”。描述理性人的工具就是所謂的理性偏好。為了方便,我們又用效用函數(shù)(在博弈論中稱為收益函數(shù))來表示偏好。構成博弈論基礎的一個重要的經(jīng)濟定理就是所謂的理性選擇原理:如果決策主體的偏好是理性的,那么(有限)選擇集中就一定存在最優(yōu)選擇,這個選擇可能是唯一的,也可能是多個。需要注意的幾個問題:(1)表達同一個偏好的收益函數(shù)不唯一,但在單調(diào)變換下卻是唯一的。(2)理性并不等同于自私自利。(3)理性選擇理論是有局限性的。三、博弈論革命所謂革命是指博弈論對經(jīng)濟學(其他社會科學)研究產(chǎn)生了深遠的影響。傳統(tǒng)經(jīng)濟學失靈的五個領域正好體現(xiàn)著博弈論的價值和意義:(1)非完全競爭;(2)外在性;(3)公共產(chǎn)品;(4)逆向選擇;(5)道德風險。在其他社會科學中,博弈論同樣可以用來解釋各種現(xiàn)象,比如政黨,利益集團,甚或人類的基本制度。比如奧爾森《集體行動的邏輯》,羅爾斯《正義論》。在自然科學中,博弈論被運用在人工智能,物種演化等方面。所以稱博弈論革命并不為過。第四節(jié)博弈論要點一、博弈的四個要素:(1)參與者,博弈中的決策主體。(2)博弈規(guī)則,對博弈如何進行做出的規(guī)定。(3)結果,博弈最后出現(xiàn)的情形。(4)收益,就是參與者對結果的偏好。如:石頭、剪刀、布參與者:孫悟空和豬八戒博弈規(guī)則:雙方同時出招,不得耍賴;石頭贏剪刀,剪刀贏布,布贏石頭。結果:休息和找水收益:休息得到正的效用,找水是負的效用。二、博弈的基本式如何將博弈表示成一種便于研究和分析的形式顯然是很重要的。如果用參與者、策略和收益函數(shù)來(科學)描述一個博弈,就稱為博弈表達的基本式。三、博弈的擴展式博弈的擴展式就是非常詳細地描繪出一個博弈的參與者、策略、行動順序以及行動時擁有的信息、可能的結果和收益等細節(jié)就稱為博弈的擴展式。四、信息和順序

完全信息和非完全信息,完全和非完全判斷的標準就是如果有些信息只有一部分參與者知道,并不是所有的信息都是公共信息,那么博弈就是非完全信息博弈。

靜態(tài)博弈和動態(tài)博弈,靜態(tài)和動態(tài)的區(qū)別并不在于時間上是否同時,而是在信息上的一種同時行動。公共知識與一般信息的區(qū)別。第二章完全信息靜態(tài)博弈學習內(nèi)容:1、理解相關概念2、均衡的求解方法3、應用舉例第一節(jié)博弈的基本式基本概念參與人(players):博弈中決策主體的集合:什么人參與博弈?每個人是什么角色?行動(actions):每個人有些什么樣行動可以選擇?在什么時候行動?信息(information):在博弈中的知識;每個人知道些什么(包括特征、行動等)?戰(zhàn)略(strategies):行動計劃;每個人有什么戰(zhàn)略可供選擇?戰(zhàn)略的完備性;支付(payoffs):每個人在不同戰(zhàn)略組合下得到些什么?依賴于所有參與人的選擇;均衡(equilibrium):所有參與人最優(yōu)戰(zhàn)略的組合;結果(outcomes):我們所感興趣的東西。靜態(tài)博弈:所有參與人同時選擇行動,并且只選擇一次。“同時”是一個信息概念,而不一定與日歷上的時間一致;1、基本要素豬八戒石頭剪刀布孫悟空石頭0,01,-1-1,1剪刀-1,10,01,-1布1,-1-1,10,0看過非誠勿擾的發(fā)明了嗎?例2.2囚徒困境(prisoners’dilemma)囚徒2沉默招供囚徒1沉默-1,-1-9,0招供0,-9-6,-6練習1:建立人民公社的囚徒困境策略式。(提示:假設兩個參與者,兩種策略:努力和偷懶。)2:小學生的減負?(你減負我不減負)例2.3斗雞博弈黨徒2讓撞黨徒1讓-10,-10-10,10撞10,-10-∞,-∞例2.4雙頭壟斷企業(yè)2高價低價企業(yè)1高價1000,1000500,1500低價1500

,500700,700例2.5獵鹿博弈其他獵人鹿兔子獵人1鹿3,30,1兔子1,01,1啟示:民主制度的建立和維護需要所有人的努力,光靠幾個人的努力顯然難以成功。還有食堂打飯的排隊現(xiàn)象。第二節(jié)博弈均衡一、嚴格優(yōu)策略均衡(占優(yōu)策略、上策略均衡)(dominant-strategyequilibrium):1:嚴格優(yōu)策略法:囚徒困境

囚徒困境最可能的結果就是(招供、招供),沒有哪個囚徒會主動偏離這個結果,否則遭受更大的損失。囚徒2沉默招供囚徒1沉默-1,-1-9,0招供0,-9-6,-6囚徒困境反映的道理1

個人理性與集體理性的沖突“囚徒困境”表明個人理性與集體理性的沖突。這個根本問題就是:個體對自身利益的追求會損害整體的利益。個人理性說明人是利己主義的;而集體理性說明了社會中人之間的合作?但在每一個人都有自私動機的情況下,怎樣才能產(chǎn)生合作呢?友善,永遠不首先打擊對手。報復,“下流”的策略將殘酷地剝削對手。寬恕,如果對手不連續(xù)背叛,他們會再次退到合作上。不嫉妒,不去爭取高于對手的利益。信任。囚徒困境反映的道理2

兩害相權取其輕要擺脫囚徒困境,沒有萬全之策,可以采用兩害相權取其輕的策略。如司馬光砸缸:淹死人是大禍,砸壞缸是小禍。人的頭腦是不清醒的,舍近而求遠,舍大而求小,趨害而避利。囚徒困境反映的道理3

不要自以為是失敗往往不是因為人們太傻,而是因為自認為很聰明。自認為聰明的人,往往會因為自己的精明而壞事。在一個比自己高明的人面前,自作聰明是討不得半點好處的,還不如老實交代。囚徒困境反映的道理4

不要沖在最前面環(huán)法自行車賽沖在最前面的人,得到的阻力無疑是最大的,最后還往往會被后面的人超越。當自己的力量不夠強大時,可以選擇共同合作走在前面或者是暫時退后;當自己的力量強大到可以抵御外來阻力時,惡意選擇卓然出眾(背叛)。假設政府公開招標選擇網(wǎng)絡公司建立政府網(wǎng),公司A是投標公司之一。A公司根據(jù)過去的經(jīng)驗能夠預算出這個項目的真實成本是100萬元,然而A不了解其他競爭對手的真實成本。A公司根據(jù)市場行情推斷,其他公司的真實成本在50萬-100萬。從概率講,在50-100萬之間的任何一個價格都有可能是最終的勝利者。簡化這個問題,假設每個公司的成本只能是50-60,60-70,……,130-140,140-150萬這樣的整數(shù),總共有10種可能。最終獲得勝利的公司落在這10種價格間的任何一個概率是1/10。你如何設計一個“囚徒困境”,使得各家只能依據(jù)自身實力、期望利潤和所掌握的市場信息,自主報價,獨自承擔風險,使得公司投標報價接近于真實成本?囚徒困境反映的道理5

向警察學習掌握主動假設你是一個事業(yè)部門的經(jīng)理,手下有7,8個業(yè)務員,你如何設計一個“囚徒困境”,使得員工們努力工作?如果你是支配著,處于主動地位,可以設置困境,為自己爭取到最大利益。“囚徒困境”舉例經(jīng)濟中的“囚徒困境”。(寡頭競爭)如果只有兩個公司同時生產(chǎn)一個產(chǎn)品,一個公司定較高的價格是為了期望另一個公司也能保持高價,這樣,雙方都能得到好處(當然消費者吃虧了)。日常生活中的“囚徒困境”。小學生的減負,團隊生產(chǎn)中的勞動供給,公共產(chǎn)品的供給,交通擁擠等等;公共產(chǎn)品(publicgoods)提供不提供提供不提供4,4-1,55,-10,0無論對方如何選擇,每個人的最優(yōu)選擇:不提供。所以,我們可以預測,結果將是(不提供,不提供)參與者1參與者2基礎教育,“囚徒困境”很少有人否認,學校不斷給學生增加負擔是目前教育的實際狀況。同樣,大家普遍認為呆板僵化的應試教育扼殺了學生的創(chuàng)造性。無論是專家還是家長,都在呼吁改變應試教育的模式。但是無論你是否意識到教育有問題,你的小孩都必須接受這個教育。如果沒有改變整體性的教育體制,個別人、個別學校、個別地方單獨改變都可能使其付出代價。每個家長都會這樣想:盡管這種教育不好,但是其他小孩采取的是這種教育,衡量標準(如中考、高考)也是依據(jù)這種教育,我的小孩如不這樣做,在競爭方面就會吃虧。因此,每個孩子和家長已經(jīng)不知不覺地進入了一個囚徒困境。政治領域的“囚徒困境”世界各個國家在沒有統(tǒng)一領導(聯(lián)合國只是個協(xié)調(diào)機構)的情況下交往。因此,產(chǎn)生合作的必要條件就與國際政治的許多中心問題有關。最重要的就是安全困境:國家往往通過那些威脅到其他國家安全的手段來尋求自身的安全。這個問題體現(xiàn)在區(qū)域沖突和軍備競賽上。兩種策略:增加軍備(背叛),消減武器(合作)。兩國都無法肯定對方會遵守協(xié)議,因此兩國最終會傾向增加軍備。似乎增加軍備是兩國的“理性”行為,但結果是“非理性”(經(jīng)濟造成損害)。這可視作遏制理論的推論,就是以強大的軍事力量來遏制對方對進攻,以達到和平。貿(mào)易壁壘的囚徒困境問題由于自由貿(mào)易能給雙方帶來好處,因此,如果兩個國家消除這些貿(mào)易壁壘都能受益。問題是,無論誰單方面采取行動消除自己一方的貿(mào)易壁壘,它都會發(fā)現(xiàn)自己處于不利于本國經(jīng)濟的貿(mào)易狀態(tài)下。事實上,不論一個國家如何做,另一個國家保持它的貿(mào)易壁壘總是比較有利的。因此,每一個國家都有利益動機來保持貿(mào)易壁壘,盡管由此帶來的結果比雙方都合作差得多。在貿(mào)易上的選擇為:提高關稅,以保護自己的商品(背叛)。與對方達成關稅協(xié)定,降低關稅以利各自商品流通(合作)。一國不遵守,背叛,另一國也背叛,兩國商品失竊了對方的市場。然后兩國又重新達成關稅協(xié)定,重新博弈的結果是將發(fā)現(xiàn)共同合作利益最大。“囚徒困境”一定是壞事嗎“囚徒困境”確實揭示了自私對合作的破壞作用,但是正如“有一利必有一弊”這句話,“囚徒困境”給我們帶來的也并不全是壞消息。作為一個比喻,我們會為囚犯不能合作而遺憾;可是如果它發(fā)生在現(xiàn)實中,我們就巴不得他們不能合作。如果兩個危險的罪犯通過合作逃脫了法律制裁,一定會給社會造成更大的危害。如果商家通過合謀控制物價,我們就不能享受合理的價格,這也會大大增加人們的消費成本,降低人們的生活水平。2、嚴格劣策略與重復剔除嚴格劣策略法嚴格優(yōu)策略法的思路是在所有可選擇策略中選出最好一種的思路,即選擇法。與之對應的就是排除法。定義2.5在一個博弈中,不管其他博弈方的策略如何變化,一個博弈方的某種策略給他帶來的收益,總是比另一種策略給他帶來的收益要小,那么我們稱前一種策略為相對后一種策略的嚴格劣策略。重復剔除嚴格劣策略“重復剔除嚴格劣策略”(iteratedeliminationofstrictlydominatedstrategy)的思路:首先找出博弈參與人的劣策略(假定存在的話),把這個劣策略剔除后,剩下的是一個不包含已剔除劣策略的新的博弈;然后在剔除這個新的博弈中的劣策略;繼續(xù)這個過程,直到?jīng)]有劣策略存在。如果剩下的策略組合是唯一的,這個唯一的策略組合就是“重復剔除嚴格劣策略均衡”(iterateddominanceequilibrium)。左中右上下1,01,20,10,30,12,0應用:上下—左中右如果先從博弈方1的策略空間開始,由于在博弈方1的“上,下”之間沒有嚴格的優(yōu)劣關系(博弈方2采用“左和中”,“上”優(yōu)于“下”,但當博弈方2采用“右”,“下”優(yōu)于“上”)。這里只有參與者2才有嚴格劣策略,即策略右相對于策略中就是一個嚴格劣策略。因為無論參與者1選擇什么策略,參與者2選擇中都要優(yōu)于選擇右。參與者2參與者1參與者2左中參與者1上1,01,2下0,30,1剔除參與者2的右策略剔除參與者1的下策略參與者2左中參與者1上1,01,2“智豬博弈”(boxedpigs)這個博弈沒有嚴格優(yōu)策略均衡。盡管“等待”是小豬的嚴格優(yōu)策略,大豬沒有。大豬的最優(yōu)策略依賴于小豬的策略:如果小豬選擇“等待”,大豬的嚴格優(yōu)策略是“按”,反之小豬“按”,則大豬是“等待”。這個博弈中,大豬的最優(yōu)選擇依賴于小豬的選擇,但小豬的最優(yōu)選擇與大豬的選擇無關。如果大豬知道小豬的理性的,大豬將選擇“按”。均衡是“大豬按,小豬等待”。啟示:比如公司治理中大股東對公司的高管的監(jiān)督,而小股東則搭便車。按等待按等待3,12,47,-10,0小豬大豬“搭便車”與公司治理結構中股東行為的分析

在現(xiàn)代公司中,股東在購買股票的同時,實際上也就與公司形成了委托代理關系:股東委托公司經(jīng)營者代表其從事經(jīng)營活動,同時股東對公司擁有剩余索取權。作為委托人的股東有權要求經(jīng)營者的行為符合股東利益最大化的要求,但是,當經(jīng)營者的決策與股東利益最大化的決策產(chǎn)生分歧的時候,經(jīng)營者往往利用對企業(yè)資源的控制權來滿足其偏好,股東的利益將遭受不同程度的損失。為了防范代理人的道德風險、降低代理成本,相應的監(jiān)督機制是必要的。對經(jīng)營者的監(jiān)督機制,可以簡單地歸為“市場監(jiān)督”和“企業(yè)內(nèi)部監(jiān)督”。“市場監(jiān)督”是通過股東買賣股票所引起的股票價格的波動來達成的;“企業(yè)內(nèi)部監(jiān)督”主要指股東通過股東大會、董事會對經(jīng)營者的行為進行監(jiān)督。前者是股東用“腳”投票,后者是用“手”投票。“企業(yè)內(nèi)部監(jiān)督”與公司治理結構密切聯(lián)系。股東代表大會是投資者對企業(yè)進行內(nèi)部監(jiān)督的基本形式,也是公司治理結構中最基本的組織結構。但由于股東代表大會中“搭便車”行為,使其只有形式?jīng)]有內(nèi)容,召開股東代表大會常常只是例行公事。小股東搭便車與大股東監(jiān)督按照“搭便車”的通常含義,每個消費者有激勵去享受由他人提供的公共品,而不愿意支付規(guī)定的價格。公共品的提供者可以是政府,也可以是私人或私人部門。公司治理結構中,“搭便車”是指大股東承擔對公司經(jīng)營者行為的監(jiān)督費用,而經(jīng)營改善的收益卻由所有的股東來分享,“監(jiān)督”成為公共品。大小股東的劃分依據(jù)是股東的持股份額。

股東對經(jīng)營者的監(jiān)督主要是控制其“機會主義”,即防止代理人的經(jīng)營行為偏離委托人的目標和利益,發(fā)生代理人對委托人的侵權行為。因此,監(jiān)督是股東對自身利益的保護。然而,小股東卻很少通過股東大會的機制實施監(jiān)督活動。我們調(diào)查顯示,在我國475家上市公司中,80%的公司的年度股東大會人數(shù)在100人以下,在這80%的公司中,75%的公司的股東大會人數(shù)在50人以下,出席股東大會人數(shù)最少的一家公司只有一名股東,有兩家公司只有2名股東出席股東大會;1997年和1998年分別有1/4和1/3的公司的流通股股東參加或委托參加股東大會。《中國證券報》的調(diào)查顯示,16%的投資者曾經(jīng)參加過股東大會,還有2%的投資者沒有直接參加,但委托他人參加過,而高達82%的投資者則表示沒有參加過股東大會。如果小股東因監(jiān)督而獲得的收益不能彌補他付出的監(jiān)督成本,作為理性經(jīng)濟人,小股東便不會實施監(jiān)督活動。股東對公司經(jīng)營者的監(jiān)督是一種“集體行動”而不是個人行動。任何人都有“搭便車”或不勞而獲的趨向。在公司治理結構中,只要有股東參與“監(jiān)督”,最后由“監(jiān)督”這種集體行動帶來股票價格上漲或其他利益都是有利于全體股東的。另外,小股東也知道在多數(shù)決情況下,他們的行為對公司很難產(chǎn)生影響,對公司的管理來說只是“噪音”,沒有實際意義。

股東對公司的監(jiān)督所耗費的成本是高昂的。作為委托人的股東只能觀察到代理人行為的結果(如股票市場上的價格的漲跌),而不能直接觀察到其行為本身(代理人行為是隱藏的)。對經(jīng)營中代理人的機會主義行為的監(jiān)督是需要對各種信號的甄別、判斷的。此外,即便是參加股東大會行使一下表決權,除支付交通費、食宿等相關費用外,還有花費大量的時間,這些都是監(jiān)督成本。如果某個集團中的個人能分享某種共同的利益,那么增加這種共同利益就自動地有利于集團中的每個人,而不論他是否承擔了為增加這種共同利益的集體行動而發(fā)生的任何代價。而且,個人行動不可能決定他所在的集團或階級的得失成敗,這就限定了個人(有理性的或有自我利益的)將不會為了參與任何集團或階級而采取的集體行動(Olson1980)。在股東集團內(nèi)部,監(jiān)督實際上是與剩余索取權相對應的義務,所有的股東都有逃避“監(jiān)督”這種義務的傾向。對于公司股東,由于監(jiān)督是公共品,在沒有政府干預的情況下,愿意提供監(jiān)督的人一定是監(jiān)督收益的最大獲得者。大股東和小股東在股東內(nèi)部集團形成二個不同的利益亞集團:它們股票份額的性質(zhì)不同,二者面臨的風險不一樣,對“監(jiān)督”的需求量也就不同,即二個亞集團面臨的需求曲線不一樣。大股東在公司中所占的股票份額大,面臨的風險也相應更大些,監(jiān)督的結果對大股東資本收入的影響遠遠大于小股東。3、劃線法嚴格優(yōu)策略和重復剔除嚴格劣策略的方法都是以絕對優(yōu)劣關系為基礎的,但許多博弈是相對優(yōu)劣關系的。也即博弈方在決策時必須考慮其他博弈方的存在和策略選擇。劃線法思路:先找出自己針對其他博弈方每種策略的最佳策略(給自己帶來最大收益的策略),然后在選擇其他博弈方針對自己的策略選擇他的最優(yōu)策略。左中右上下1,01,20,10,30,12,0例1囚徒2沉默招供囚徒1沉默-1,-1-9,0招供0,-9-6,-6例2:“囚徒困境”例3:男女之爭男朋友時裝足球女朋友時裝2,10,0足球0,01,3練習C1C2C3R1R2R30,44,05,34,00,45,33,53,56,6C1C2C3R1R2R30,44,05,34,00,45,33,53,56,6二、納什均衡納什均衡:所有參與人的最優(yōu)策略的組合,給定該策略中別人的選擇,沒有人有積極性改變自己的選擇。納什均衡通俗地說給定你的策略,我的策略是最好的策略;給定我的策略,你的策略也是你最好的策略。即雙方在對方給定的策略下不愿意調(diào)整自己的策略。

條件:參與者的信念是正確的;理性的參與者根據(jù)其信念來選擇最優(yōu)行動。命題2.2嚴格優(yōu)策略肯定是納什均衡,反過來不成立。命題2.3納什均衡一定不會被重復剔除嚴格劣策略的方法剔除;如果進行了重復剔除嚴格劣策略后剩下唯一策略組合,那么一定是納什均衡。證明見書上。(一)尋找納什均衡的方法1:劃線法C1C2C3R1R2R3100,1000,050,10150,01,160,00,3000,0200,200納什均衡舉例1:廣告博弈廣告博弈納什均衡:(做廣告,做廣告)企業(yè)1企業(yè)2舉例2:所有權配置與等級結構考慮團隊生產(chǎn):讓其中的一個人變成所有者工作偷懶工作偷懶6,62,20,88,0舉例3:大鍋飯參與者2W(出力)L(懶惰)參與者1W(出力)V-CL,V-CLV-Ch

,VL(懶惰)V

,V-Ch0,0該模型與雙頭壟斷、人民公社都屬于囚徒困境一樣,啟示:道德風險。道德風險是指博弈的參與者故意隱藏自己的行動,而不是盡力去完成任務。通常由于沒有辦法有效監(jiān)督參與者的偷懶行動,因而會出現(xiàn)所謂的道德風險問題。舉例4:消耗戰(zhàn)老虎2P(堅持)Q(放棄)老虎1P(堅持)-c,-cd,0Q(放棄)0,d0,0啟示:該模型與鷹鴿博弈、斗雞博弈一樣,其特征是博弈雙方力求避免沖突。在政治學中,曾有人說政治就是妥協(xié),而這類博弈很好的說明了這一點。1、雙寡頭競爭:Cournot博弈。兩個企業(yè)同時選擇產(chǎn)量,價格由市場決定;假定需求函數(shù)為 其中q1為企業(yè)1的產(chǎn)量,為企業(yè)2的產(chǎn)量假定成本函數(shù)為:那么,利潤函數(shù)為:(二)尋找納什均衡方法2:無限策略博弈與反應函數(shù)雙寡頭競爭(續(xù))企業(yè)最大化利潤的一階條件為:即反應函數(shù)納什均衡產(chǎn)量:納什均衡利潤為(0,a-c)(0,(a-c)/2)(0,(a-c)/2)(0,a-c)q2q1壟斷產(chǎn)量和壟斷利潤壟斷企業(yè)的目標函數(shù):壟斷產(chǎn)量:壟斷利潤:產(chǎn)量博弈的古諾模型是一種囚徒困境,無法實現(xiàn)博弈方總體和各個博弈方各自最大利益。古諾模型的意義在于指明壟斷企業(yè)之間的串謀是不穩(wěn)定的,每個企業(yè)都有欺騙對方的動機。古諾模型在現(xiàn)實中的例子就是上個世紀的8,90年代國際經(jīng)濟中石油輸出國組織的限額和突破問題。石油輸出國組織已知各自為政、自定產(chǎn)量的博弈結果肯定是使油價下跌、利潤受損,因此有共同磋商制度產(chǎn)量限額以維持油價的意愿。但一旦規(guī)定各國的生產(chǎn)限額,且按照這個限額生產(chǎn),每個成員國都會發(fā)現(xiàn),如果其他國家都遵守限額而只有自己超產(chǎn),則自己將會得到更多的利潤,并且因為只有一國超產(chǎn)時,油價并不會下貼很多,所以其他各國只是普遍受少量損失。而反過來,如果其他國家都超產(chǎn)而只有自己遵守限額,那么自己會受很大的損失。因此,最終的結果是各國都普遍突破限額,限產(chǎn)計劃破產(chǎn),油價嚴重下跌,各國都只能得到不是最滿意的納什均衡的利潤。2、波特蘭德寡頭模型波特蘭德寡頭模型中各廠商所選擇的是價格而不是產(chǎn)量。兩寡頭且產(chǎn)品有一定差異的波特蘭德博弈模型,即產(chǎn)品有一定差別是指兩個廠商生產(chǎn)的是同類產(chǎn)品,但在品牌、質(zhì)量和包裝等方面有所不同。由于廠商的產(chǎn)品質(zhì)檢有很強的替代性,但又不是完全替代,即價格不同時,價格較高的不會完全銷不出去。當廠商1和2價格分別為P1和P2,他們各自的需求函數(shù)為

Q1=Q1(P1,P2)=a1-b1

P1+d1

P2Q2=Q2(P1,P2)=a2-b2

P2+d2P1

上面反映了產(chǎn)品差別的特征,其中d1

,d2>0即兩廠商產(chǎn)品的替代系數(shù)。我們假設兩廠商無固定成本,假設邊際生產(chǎn)成本分別為c1

,c2。最后,兩廠商是同時決策的。廠商1和2的策略空間是s1=[0,P1max],s2=[0,P2max]。P1max和P2max是兩廠商還能賣出產(chǎn)品的最高價格;兩博弈方的得益就是各自的利潤,即銷售額減去成本。對上兩式進行求一階導數(shù),即可得到反應函數(shù):解上兩式,得到該博弈惟一的納什均衡:3、公共資源問題公共資源:沒有哪個個人、企業(yè)或組織擁有所有權;大家都可以自由利用。例如大家都可以開采使用的地下水,可自由放牧的草地,可自由排放廢水的公共河道(假設政府未予限制)。公共資源問題就是在人們完全從自利動機出發(fā)自由利用公共資源時,公共資源傾向于被過度利用、低效率使用和浪費。設某村莊有n個農(nóng)戶,該村有一片大家都可以自由放牧羊群的公共草地。由于這邊草地的面積有限,因此只能讓不超過某一數(shù)量的羊吃飽,如果放羊的實際數(shù)量超過這個限度,則每只羊都無法吃飽,從而每只羊的產(chǎn)出(毛、皮和肉的總價值)就會減少,甚至只能勉強存活或要餓死。假設這些農(nóng)戶在夏天才到公共草地放羊,而每年春天就要決定養(yǎng)羊的數(shù)量,則可看作各農(nóng)戶在決定自己的養(yǎng)羊數(shù)量是不知道其他農(nóng)戶養(yǎng)羊數(shù)的,即各農(nóng)戶決定養(yǎng)羊數(shù)的決策是同時做出的。再假設所有農(nóng)戶都清楚這片公共草地最多能養(yǎng)多少羊和羊只總數(shù)的不同水平下每只羊的產(chǎn)出。這就構成了n個農(nóng)戶之間關于養(yǎng)羊數(shù)的博弈問題。博弈方n個農(nóng)戶,策略是選擇的養(yǎng)羊數(shù)目qi(i=1,……,n)的取值范圍;當各戶養(yǎng)羊數(shù)為q1,……,qn時,在公共草地上放羊的總數(shù)為Q=q1+……+qn,每只羊的產(chǎn)出是羊只總數(shù)Q的減函數(shù)V=V(Q)=V(q1+……+qn)。假設購買和照料每只羊的成本對每個農(nóng)戶都是相同的常數(shù)c,則農(nóng)戶i養(yǎng)qi只羊的得益為:ui

=qi

V(Q)-qi

c=qi

V(q1+……+qn)-qi

c這里我們可以假設只有三個農(nóng)戶,即n=3,每只羊的產(chǎn)出函數(shù)為V=100-Q=100-(q1+q2+q3),而成本c=4,則三農(nóng)戶的得益分別為u1=q1[100-(q1+q2+q3)]-4q1u2=q2[100-(q1+q2+q3)]-4q2u3=q3[100-(q1+q2+q3)]-4q3求一階導數(shù),則得到反應函數(shù)q1=R1(q2,q3)=48-1/2(q2)-1/2(q3)q2=R2(q1,q3)=48-1/2(q1)-1/2(q3)q3=R1(q2,q1)=48-1/2(q2)-1/2(q1)這三個反應函數(shù)的交點就是博弈的納什均衡,聯(lián)立這三方程解得q1=q2=q3=24,進而得到三農(nóng)戶的得益函數(shù)u1=u2=u3=576。為了對公共資源的利用效率做出評價,我們討論總體利益最大的最佳羊數(shù)量。設在該草地上羊的總數(shù)為Q,則總得益為u=Q(100-Q)-4Q求解可得到Q=48,而總得益u=2304。該結果比三農(nóng)戶各自獨自決定自己的養(yǎng)羊數(shù)時三農(nóng)戶得益的綜合1728大了許多。而此時的養(yǎng)羊數(shù)Q=48頁比三農(nóng)戶獨立決策時草地上的羊的總數(shù)72要小。因此,三農(nóng)戶獨立決策時實際上使草地處于過度放牧的情況,浪費了資源,農(nóng)戶也沒有得到最好的效益。啟示:公共資源問題反應了農(nóng)戶面臨的也是一種囚徒的困境局面:在總體上有加大利用資源的可能時,自己加大利用而他人不加大利用則自己得利,自己加大利用但其他人也加大利用則自己不至于吃虧,最終是所有人都加大利用資源。因此很難實現(xiàn)這種理想的合作的結果,除非有政府進行協(xié)調(diào)、管理和制約。在我國,比如沙漠化中,當?shù)鼐用耜P于保護還是毀壞防風防沙林帶的選擇。公共設施問題也是類似的問題。即在許多需要人類生產(chǎn)、提供公共設施的問題上,做搭便車總是比做提供者合算,因此許多必需的公共設施,如樓道里的電燈等就總是沒有人提供。4、有限策略下的反應函數(shù)(1)消耗戰(zhàn)當虎2選擇P(堅持)時,虎1的最優(yōu)反應策略為Q(放棄),因而有最優(yōu)反應函數(shù)

b1(P)=Q當虎2選擇Q時,虎1的最優(yōu)反應策略為P,因而有最優(yōu)反應函數(shù)

b1(Q)=P當虎1選擇P(堅持)時,虎2的最優(yōu)反應策略為Q(放棄),因而有最優(yōu)反應函數(shù)

b2(P)=Q當虎1選擇Q時,虎2的最優(yōu)反應策略為P,因而有最優(yōu)反應函數(shù)

b2(Q)=P(2)石頭、剪刀、布的反應函數(shù)孫悟空的最優(yōu)反應函數(shù)為:布s2=石頭b1(s2)=石頭s2=剪刀剪刀s2=布豬八戒的最優(yōu)反應函數(shù)為:布s1=石頭b1(s1)=石頭s1=剪刀剪刀s1=布第六節(jié)混合策略納什均衡有些博弈沒有“純策略”納什均衡,但有混合策略納什均衡,如監(jiān)督博弈。給定工人偷懶,老板的最優(yōu)選擇是監(jiān)督;給定老板監(jiān)督,工人的最優(yōu)選擇是不偷懶;給定工人不偷懶,老板的最優(yōu)選擇是不監(jiān)督;給定老板不監(jiān)督,工人的最優(yōu)選擇是偷懶;如此循環(huán)。監(jiān)督不監(jiān)督偷懶不偷懶1,-1-1,2-2,32,2如果博弈中不存在納什均衡或者納什均衡不惟一,如石頭剪刀布、猜硬幣博弈,監(jiān)督博弈或夫妻之爭博弈那樣,如果用以前的方法是不能對博弈方的選擇和博弈結果作明確的預測,無法給博弈方提供明確的建議。這樣就要把純策略擴展到混合策略。從前面的博弈可以看出,真正吸引人的博弈并不是有唯一納什均衡解的博弈。對有唯一納什均衡解的博弈,從理性分析的角度。實際上已經(jīng)失去博弈的意義。真正有博弈意義的是有多個納什均衡解或沒有納什均衡解的博弈,這時任何局中人都不知道對手會出什么樣的策略,當然在這樣的博弈中,任何局中人也無法確定自己的最優(yōu)納什均衡策略。面對這樣的博弈,局中人確定的均衡局勢是怎樣一種情形,為了進一步分析這種博弈,我們引入混合策略的概念。一、混合策略與期望收益函數(shù)豬八戒石頭剪刀布孫悟空石頭0,01,-1-1,1剪刀-1,10,01,-1布1,-1-1,10,0純策略是最基本策略,而混合策略則是參與者策略空間Si中全部策略的概率分布,能夠分解更小的策略。例1:石頭剪刀布在此博弈中,策略空間Si內(nèi)還有三個純策略,分別為石頭、剪刀、布,而參與者i的一個混合策略為概率分布(q,r,1-q-r),q是出石頭的概率,r為出剪刀的概率,1-q-r是布的概率,且0≤q,r≤1。純策略可以看作是混合策略的一個特例,例如石頭可以表述為混合策略(1,0,0),即以1的概率出石頭,出剪刀和布的概率是0。例2:猜硬幣博弈猜硬幣方正面背面蓋硬幣方正面-1,11,-1背面1,-1-1,1猜硬幣博弈中沒有純策略納什均衡,因為無論雙方采用的是哪個策略組合,結果都是一方贏一方輸。蓋硬幣方的一個混合策略為概率分布(p,1-p),其中p表示蓋正面的概率,1-p表示蓋背面的概率,且0≤p≤1。猜硬幣方

y1-y正面背面蓋硬幣方x正面-1,11,-11-x背面1,-1-1,1各種策略組合及其概率(正面,正面)xy(正面,背面)x(1-y)(背面,正面)(1-x)y(背面,背面)(1-x)(1-y)例:猜硬幣博弈的期望效用求解混合策略的納什均衡方法:偏導數(shù)買不買高質(zhì)量3,30,2低質(zhì)量4,01,1這部分內(nèi)容也可以參考書P67。例1:猜硬幣博弈的混合策略的納什均衡例2:順從檢查假設消費者購買一個軟件包的許可證,同意對它的使用有所限制。很顯然,消費者有激勵違背這個規(guī)則。銷售者檢查消費者是否遵守協(xié)議,但這樣做需要一定的成本。如果銷售者檢查并發(fā)現(xiàn)消費者欺騙,銷售者要求對不順從的消費者進行懲罰。博弈特征:沒有檢查時,消費者寧愿欺騙;在有檢查時,消費者寧愿順從。如果消費者順從,銷售者寧愿不檢查;如果消費者欺騙,銷售者寧愿檢查。求解混合策略納什均衡。順從欺騙不檢查0,0-8,8檢查-1,0-4,-64啟示:在檢查的背景下,隨機是實踐的方法,可以削減成本。即使檢查是不確定的,足夠高被抓住的機會將被威脅住欺騙,至少某種程度上威脅住。1/9的均衡概率檢查使得參與人2在順從和欺騙之間是無差異的,即(8/9)×8+(1/9)×(-64)=(8/9)×0+(1/9)×0=0。也就是參與人2在參與人1選擇檢查與不檢查的概率使得其選擇欺騙與順從的期望收益相等。如果參與人1選擇經(jīng)常檢查,欺騙的比例將減少,這反過來使得不檢查成為更好的策略。例3:數(shù)值例子。設參與者1選擇A的概率是pA,選擇B的概率是pB,參與2選擇C的概率是pC,選擇D的概率是pD。其中博弈方的選擇是他們選擇每種策略的概率一定要恰好使對方無機可乘。即參與者1選A和B的概率,一定要使參與者2選C的期望收益和選D的期望收益相等,即pA×3+pB×1=pA×2+pB×5簡化可得pA=4pB。又因為pA

+pB

=1,因此pA=0.8,pB

=0.2,這就是參與者1應該選擇的混合策略。同理參與者2選擇C和D的概率,也應使參與者1選擇A和選擇B的期望收益相等:pC×2+pD×5=pC×2+pD×1簡化后得4pD=pC。因為pC+pD

=1,可得pA=0.8,pB=0.2。這就是參與者2的混合策略。當參與者1以(0.8,0.2)的概率隨機選擇A和B,參與者2以(0.8,0.2)的概率隨機選擇C和D時,由于誰都無法通過單獨改變自己隨機選擇的概率分布改善自己的期望收益,。這就是本博弈惟一的混合策略納什均橫。CDA2,35,2B3,11,5例4:社會福利博弈流浪漢

q1-q尋找工作游蕩政府

p救助3,2-1,31-p不救助-1,10,0政府想幫助流浪漢,但前提是流浪漢必須試圖找到工作,否則,政府不予幫助;而流浪漢只有在得不到政府救助時才會尋找工作。類似這樣的問題,在父母決定給予懶惰的兒子多少資助時也會出現(xiàn)。例5:監(jiān)督博弈代理人偷懶工作委托人監(jiān)督-h,0v-w-h,w-g不監(jiān)督-w,wv-w,w-g多重均衡博弈和混合策略一、夫妻之爭的混合策略納什均衡2,10,00,01,3時裝足球時裝足球丈夫妻子夫妻之爭妻子的混合策略丈夫的混合策略夫妻之爭博弈的混合策略納什均衡策略得益博弈方1(0.75,0.25)0.67博弈方2(1/3,2/3)0.75二、制式問題1,30,00,02,2ABAB廠商2廠商1制式問題混合策略納什均衡

AB得益廠商1:0.40.60.664廠商2:0.670.331.296三、市場機會博弈-50,-50100,00,1000,0進不進進不進廠商2廠商1市場機會

進不進

得益廠商1:2/31/30廠商2:2/31/30練習:稅收檢查納稅人逃稅不逃稅稅收機關檢查a-C+F,-a-Fa-C,-a不檢查0,0a,-aa是應納稅款,C是檢查成本,F(xiàn)是罰款,假定C<a+F。并請給予合理解釋?納什均衡的存在性問題每一個有限博弈至少存在一個納什均衡(純戰(zhàn)略或混合戰(zhàn)略);如果一個博弈存在兩個純戰(zhàn)略納什均衡,那么,一定存在第三個混合戰(zhàn)略納什均衡。納什定理納什定理1如果策略式博弈G是有限的,那么一定存在納什均衡。納什定理2如果策略式博弈G中參與者的策略空間是凸緊集,收益函數(shù)是連續(xù)擬凹函數(shù),那么一定存在一個純策略納什均衡。納什定理3如果策略式博弈G中參與者的策略空間是緊集,收益函數(shù)是連續(xù)的,那么一定存在(可能是混合的)納什均衡。納什定理得證明關鍵是弄清楚幾個關鍵概念:上半連續(xù)、凸集、緊集、不動點角谷不動點定理第三章納什均衡運用舉例1、Hotelling價格競爭模型及其擴展(多黨競選)1)Hotelling(1924)模型中,產(chǎn)品在物質(zhì)性能上是相同的,但在空間位置上有差異。因為處于不同位置上的消費者購物的旅行成本(包括時間成本)不同,他們關心的不只是所購貨物的價格,而是價格和旅行成本的和。假定有一個長度為1的線性城市(線性城市的假設與某些小城鎮(zhèn)的居民住宅沿道路或河流排列的情形是吻合的),消費者均勻地分布在[0,1]的區(qū)間里;有兩個商店,分別位于該線性城市的兩端,即商店1在x=0處,商店2位于x=1處,他們出售物質(zhì)性能相同的商品;每家商店提供單位商品的成本都是c,消費者購買商品的單位旅行成本為t。這樣,住在x的消費者到商店1采購的成本是tx,到商店2的采購的成本是t(1-x)。2)多黨競選西方資本主義國家基本都實行多黨制,從政治主張來看,基本可劃分為保守和激進主張。因而一個黨派如何選擇自己的政治主張,將會關系到能夠吸引多少選票,同時黨派之間的立場選擇存在明顯的策略依存性。如Hotelling模型,超市通過選址爭奪顧客的原理一致。保守用0表示,激進用1表示。選民在保守與激進主張之間選擇。不妨設m為[0,1]中的中位數(shù),即[0,m]和[m,1]區(qū)間上的選民都為半數(shù)(當然也可以不相同)。假設選民服從均勻分布,即選民在各自區(qū)間上平均分布。對于任一選民而言,其偏好是選擇接近于自己政治主張的候選人效用越高。假設選民的偏好是對稱的,即偏向保守還是偏向激進,其效用減少都一致。兩黨需要確定某種政治主張以最大限度地吸引選民投它的票,誰獲得的選票多誰就獲勝。保守0激進1黨派1x1黨派2x2如果黨派1的政治主張(策略)為x1,他偏向保守,能獲得保守選民的選票,即得到分布在[0,x1]的選民的支持。由于假設選民分布在[0,1]的區(qū)間,他獲得的投票數(shù)可用x1來表示。黨派2的策略為x2,偏向激進主張,能獲得激進選民的選票,即獲得分布在[x2,1]的選民支持,他獲得的投票數(shù)可用1-x2來表示。對于分布在[x1,x2]的的選民而言,則被兩黨平分,圖3-3中的虛線左邊為支持黨派1的選民,右邊為支持黨派2的選民。顯然,給定黨派1的策略x1,黨派2的策略x2越接近于x1,獲得的選民就會越多。參與者:黨派1和黨派2;策略空間:黨派1的策略空間為S1=[0,1],策略x1∈[0,1];黨派2的策略空間為S2=[0,1],策略x2∈[0,1]。偏好和收益函數(shù):獲勝、平分、落敗。不妨設贏的收益為w,勢均力敵為a,失敗的為0。黨派1的收益函數(shù)為保守0激進1黨派1x1黨派2x2m保守0激進1黨派1x1黨派2x2m保守0激進1黨派1x1黨派2x2m保守0激進1黨派1x1黨派2x2m當x2<m,黨派1的最優(yōu)策略x1為大于x2,小于2m-x2之間的任意數(shù),因為這時黨派1獲得的選民數(shù)超過半數(shù),能夠獲得選舉。當x2=m時,那么黨派1的最優(yōu)策略x1就是等于x2,因為這樣黨派1能夠獲得半數(shù)選民的支持,不至于落敗。當x2>m,黨派1的最優(yōu)策略x1為大于2m-x2,小于x2之間的任意數(shù),因為這樣能獲得超過半數(shù)選民的支持。最終得到黨派1的最優(yōu)反應對應為:同樣能夠得到黨派2的最優(yōu)反應對應。這兩個最優(yōu)反應對應的交集即為Hotelling模型的納什均衡。啟示:無論什么黨派上臺,長期奉行的政治路線通常為中間路線,即不過分保守,也不過分激進。x2x1B1(x2)B2(x1)m3、事故賠償法傷害人與受害人損失函數(shù)為L(a1,a2)>0,a1,a2分別表示傷害人與受害人的小心程度,顯然參與者越小心,損失越小,即損失函數(shù)L的偏導數(shù)小于0。設p(a1,a2)為傷害人承擔損失的比重,1-p(a1,a2)為受害人承擔損失的比重。參與者越小心,那么責任越輕,即p的偏導數(shù)小于0。從社會來看當然希望總損失越小越好,即

Max[-a1-a2-L(a1,a2)]傷害人則希望自己的損失越小越好,即

Max[-a1-p(a1,a2)L(a1,a2)]受害人的收益函數(shù)為

Max[-a1-(1-p(a1,a2))L(a1,a2)]從社會的角度來看,總的損失越小越好,即一階條件得:

根據(jù)上式就能得到滿足社會最優(yōu)的和。美國,實行過“過錯加過錯”的賠償原則。不妨假設當發(fā)生事故時,傷害人要么承擔全部責任,要么不承擔責任,即p要么等于1,要么等于0。只有當傷害人有過錯,而受害人沒有過錯時,傷害人才承擔責任,其他情況下,傷害人不承擔責任。不妨設法律規(guī)定的過錯標準為X1和X2,當a1≥

X1時,傷害人沒有過錯;當a2≥

X2時,受害人沒有過錯。可以表示為:另一個賠償原則就是純過錯,X1>0,a2=0,即只有在傷害人沒有過錯而受害人有完全過錯的情況下,傷害人才能免責,否則將承擔全部責任。求解:純過錯情景不妨假定,這時傷害人的收益函數(shù)為受害人的收益函數(shù)為在這種情況下,傷害人的最優(yōu)反應函數(shù)為如果受害人小心程度a2=0,那么傷害人的最優(yōu)策略;如果受害人的小心程度a2>0,那么傷害人就需要使得最大的。根據(jù)已知條件,在給定的情況下,有,只有當時候,才有。原因在于,當受害人的小心程度不等于時,傷害人需要付出更多的小心以防止損失增加。使得社會總損失最小,所以同樣使得傷害人和受害人損失最小。對于受害人的最優(yōu)反應函數(shù)為a1u1u1(a1,a2*)u1(a1,a2)0a1*a1#給定a2<a2*使u1最大的a1第二種情景:過錯加過錯只有當傷害人完全過錯,而受害人完全沒有過錯時,傷害人才承擔責任。傷害人和受害人的收益函數(shù)分別為給定受害人的策略,那么傷害人的最優(yōu)策略是選擇a1=0;如果,那么傷害人的最優(yōu)策略就是選擇。給定傷害人的策略,那么受害人的最優(yōu)策略是選擇;如果傷害人的策略為,那么受害人的最優(yōu)策略是。啟示:這就解釋了為什么西方國家交通秩序非常好,原因就在于過錯加過錯的賠償原則。4、公共地悲劇5、爭議仲裁勞資爭議、合同爭議、消費爭議等。一旦爭議發(fā)生,就需要社會的仲裁機構(為民事法庭)來加以仲裁。仲裁的形式主要有兩種:協(xié)議仲裁和最后仲裁。根據(jù)民法原則,爭議雙方應首先自愿協(xié)商解決,只有爭議雙方無法達成協(xié)議,仲裁機構才進行最后仲裁。我們可以使用最后仲裁模型分析中國城市化進程中,房屋拆遷的賠償金問題。假定參與爭議的雙方一為政府,另一為居民戶,爭議因補償金而起。首先政府和居民戶同時開出自己希望的賠償金水平,分別用wg和wf表示。如果wg>wf

,顯然不存在爭議。如果wg<wf

,雙方存在補償金爭議,并報仲裁機構進行仲裁。最后,仲裁機構會在兩者之中選取其一作為結果。這個博弈實際上屬于動態(tài)博弈,但由于仲裁機構不在此博弈中,不存在收益,所以可以把該博弈看作是靜態(tài)博弈來處理。在博弈中,把類似于仲裁機構的這種參與者稱為自然,他參與博弈但卻沒有自己的收益。假定仲裁機構本身對補償金有自己合理的數(shù)值,用x來表示。政府和居民報價wg和wf之后。仲裁機構只是簡單選擇距x最接近的要價:如果x<(wg+wf)/2,仲裁機構選擇wg

。如果x>(wg+wf)/2,仲裁機構選擇wf

。仲裁機構遵循的這個仲裁原則是公共信息。對于x,只有仲裁機構知道,政府和居民不知道。但x服從一定的概率分布是公共信息,其累積分布函數(shù)為F(x),概率密度函數(shù)為f(x)。根據(jù)仲裁原則,如果雙方的要價分別為wg和wf

,那么雙方推斷wg被選中的概率為Pr{wg}和wf被選中的概率為Pr{wf

},用數(shù)學表示出來為:(wg+wf)/2x<x>wgwf=1/2第四章完全信息動態(tài)博弈更為現(xiàn)實的考慮是將靜態(tài)博弈動態(tài)化,動態(tài)化后,納什均衡這一概念是否仍然有效呢?答案是部分有效的。如果不存在動態(tài)不一致,那么納什均衡在完全信息動態(tài)博弈中仍不失為一個有用的均衡概念,但納什均衡概念本身并不能保證不出現(xiàn)動態(tài)不一致,為了克服這一點在納什均衡的基礎上生產(chǎn)了所謂子博弈完美均衡。而這一章,我們將圍繞這子博弈完美均衡來展開。第一節(jié)完美信息與完全但不完美信息完全信息動態(tài)博弈可以分為兩類,即完美信息與完全但不完美信息。所謂的完美信息博弈,是指博弈中的后行動者始終能夠觀察到前行動者的行動,因而動態(tài)博弈中不存在參與者同時行動這樣的情況。而完全但不完美信息博弈,則指動態(tài)博弈中,至少存在兩個參與者同時行動的情況,因而“后行動者”無法觀察到“前行動者”的行動。我們不妨用兩個例子來加以說明。例4.1動態(tài)囚徒困境招供沉默囚徒1囚徒2囚徒2招供沉默招供沉默圖4-1動態(tài)囚徒困境例4.2取消管制維持取消進退進退1圖4-3取消管制政府2退進定義4.1

完美信息動態(tài)博弈就是不存在同時行動的完全信息動態(tài)博弈。顯然,運用策略式來描述動態(tài)博弈會非常不便,特別是當信息不完全時更是如此,為了更簡便地描述動態(tài)博弈,我們將引入一種新的博弈表達式——擴展式。第二節(jié)動態(tài)博弈

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論