第1章 博弈論,策略的選擇
博弈論(Game Theory),看起來玄而又玄,似乎高深莫測(cè),但直譯下來就是游戲理論的意思。不妨說,博弈論就是通過玩游戲而獲得一些人生競(jìng)爭(zhēng)策略的理論。
在博弈論的所有案例和模型中,囚徒困境無疑是最著名的,可以說,不談囚徒困境,就無從談博弈論。
什么是博弈論?
博弈論,又叫對(duì)策論,是研究?jī)扇嘶蚨嗳酥g競(jìng)爭(zhēng)合作關(guān)系的一門學(xué)科。用我們?nèi)粘5恼Z言來說,博弈論就是研究在不同情境下策略選擇的一種理論。它既是經(jīng)濟(jì)學(xué)的一個(gè)重要學(xué)科,也是現(xiàn)代數(shù)學(xué)的一個(gè)新分支。
在經(jīng)濟(jì)學(xué)上,博弈論是一個(gè)非常重要的理論概念,通過使用嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)模型來解決現(xiàn)實(shí)生活中的各種利害沖突問題。具體來說,博弈論是指某個(gè)個(gè)人或是組織,在一定的環(huán)境條件和規(guī)則約束下,依靠所掌握的信息選擇并實(shí)施各自所傾向的行為或是策略,從中取得相應(yīng)結(jié)果或收益的過程。
博弈論思想古已有之,早在2000多年前,博弈論的原始思想即已萌芽。古代文獻(xiàn)中不乏充滿博弈思維的案例?!秾O子兵法》《三十六計(jì)》《三國(guó)演義》等等,就不僅僅是軍事著作,而且可以算是很好的博弈論教材,只不過還沒有上升到現(xiàn)代博弈論的層次而已。
博弈論最初主要研究的是象棋、圍棋以及賭博中的勝負(fù)問題。那時(shí)候,人們對(duì)博弈局勢(shì)的把握只停留在經(jīng)驗(yàn)層面上,并沒有向理論層面發(fā)展,其正式發(fā)展成一門學(xué)科則是在20世紀(jì)初。
1928年,美籍匈牙利數(shù)學(xué)家約翰·馮·諾伊曼提出了博弈論的基本原理,并與經(jīng)濟(jì)學(xué)家奧斯卡·摩根斯頓合作,于1944年發(fā)表了《博弈論與經(jīng)濟(jì)行為》一書,提出了合作博弈的基本模型,并將二人博弈結(jié)構(gòu)推廣到n人博弈結(jié)構(gòu)。自此,博弈論被引入了經(jīng)濟(jì)領(lǐng)域,奠定了這一學(xué)科的基礎(chǔ)和理論體系。人們都把諾伊曼和摩根斯頓的這部巨著看作是現(xiàn)代博弈理論誕生的標(biāo)志。
目前,博弈論作為分析、解決沖突和合作的理論工具,已經(jīng)在管理學(xué)、國(guó)際政治學(xué)、經(jīng)濟(jì)學(xué)、外交學(xué)和社會(huì)學(xué)等領(lǐng)域得到了廣泛的應(yīng)用,為解決不同實(shí)體的沖突和合作提供了寶貴的方法,并日漸發(fā)展成為一熱門學(xué)科。
◇博弈的三要素
任何一局博弈都至少包含以下三個(gè)基本要素:
——決策主體
決策主體,又譯為參與者、局中人或博弈者。在一場(chǎng)競(jìng)賽或一局博弈中,每一個(gè)有決策權(quán)的參與者都構(gòu)成一個(gè)決策主體。
決策主體的目的是通過選擇行動(dòng)方案或者戰(zhàn)略以使自己的效用水平最大化。只有兩個(gè)決策主體的博弈稱為兩人博弈,多于兩個(gè)決策主體的博弈稱為多人博弈。一局博弈中的決策主體可以是自然人,也可以是團(tuán)體:如企業(yè)、國(guó)家等。
——策略
策略,又譯為戰(zhàn)略,即決策主體在給定信息的情況下的行動(dòng)規(guī)則,它規(guī)定了決策主體在什么時(shí)候采取什么行動(dòng)。
一局博弈中,每個(gè)決策主體都會(huì)選擇實(shí)際可行的、完整的行動(dòng)方案。一個(gè)可行的自始至終地對(duì)全局進(jìn)行籌劃的行動(dòng)方案,稱為這個(gè)決策主體的一個(gè)策略。如果在一局博弈中決策主體的策略是有限的,就稱為有限博弈,相反則稱為無限博弈。
——效用
效用,又叫作支付,是指在一個(gè)特定的策略組合下,決策主體得到的確定效用水平,或者說是期望效用水平。簡(jiǎn)單來說,效用就是指進(jìn)行博弈后的收益。
效用是所有決策主體真正關(guān)心的東西,每個(gè)決策主體在一局博弈結(jié)束時(shí)得到的效用,不僅與該決策主體自身所選擇的策略有關(guān),而且與全部決策主體所取定的一組策略有關(guān)。一局博弈結(jié)束時(shí)每個(gè)決策主體得到的效用是全體決策主體所取定的一組策略的函數(shù),通常稱為支付函數(shù)。
◇博弈的分類
博弈可以從多個(gè)角度進(jìn)行分類。
——按照博弈各方是否同時(shí)決策,博弈可以分為靜態(tài)博弈和動(dòng)態(tài)博弈
靜態(tài)博弈是指在博弈過程中,參與者同時(shí)決策或同時(shí)行動(dòng),或者盡管決策或行動(dòng)有先后順序,但后行動(dòng)者并不知道先行動(dòng)者采取了什么具體的決策或行動(dòng)。比如說工程招標(biāo)(排除標(biāo)書泄密的違規(guī)行為),其截止日期是6月1日,盡管有的競(jìng)標(biāo)者在5月上旬就投了標(biāo),有的競(jìng)標(biāo)者直到5月下旬才投標(biāo),參與者的決策時(shí)間有先后之分,但效果卻與同時(shí)決策是一樣的。
動(dòng)態(tài)博弈是指在博弈過程中,參與者的行動(dòng)有先后順序,并且后行動(dòng)者可以觀察到先行動(dòng)者所采取的行動(dòng)。
——按照參與者對(duì)其他參與者的了解程度,博弈可以分為完全信息博弈和不完全信息博弈
完全信息博弈是指在博弈過程中,每一位參與者對(duì)其他參與者的策略空間、策略組合及收益信息有完全的了解。
如果參與者對(duì)其他參與者的策略空間、策略組合及收益信息了解得不夠確切,或者說并沒有掌握所有參與者的策略空間、策略組合及收益信息,在此種情況下進(jìn)行的博弈就是不完全信息博弈。此時(shí),參與者所能做的就是努力使自己的期望支付或期望效用最大化。
——按照參與者能否達(dá)成約束性的協(xié)議以便集體行動(dòng),博弈可以分為合作博弈和非合作博弈
合作博弈是指所有參與者都從利己的角度出發(fā),與其他參與者進(jìn)行談判并達(dá)成具有約束力的協(xié)議或形成聯(lián)盟,參與者在協(xié)議范圍內(nèi)進(jìn)行博弈,其結(jié)果對(duì)聯(lián)盟各方均有利。合作博弈主要研究人們達(dá)成協(xié)議時(shí),如何分配合作得到的收益,即收益分配問題。
合作博弈強(qiáng)調(diào)團(tuán)體的理性、效率、公平和公正。典型的合作博弈是某一行業(yè)的寡頭企業(yè)之間的串謀行為,即企業(yè)之間通過公開或者私下簽訂協(xié)議,對(duì)各自的價(jià)格或產(chǎn)量進(jìn)行限制,以達(dá)到獲取更多壟斷利潤(rùn)的目的。
反之,不能使其他參與者遵守某一協(xié)議,各參與者只能選擇自己的最優(yōu)戰(zhàn)略的行為,則屬于非合作博弈。非合作博弈主要研究人們?cè)诶嫦嗷ビ绊懙木謩?shì)中如何選擇、決策,使自己的收益最大,即策略選擇問題。
非合作博弈強(qiáng)調(diào)個(gè)人理性、個(gè)人最優(yōu)決策。下面將要講到的囚徒困境就是典型的非合作博弈。因?yàn)榉呛献魇钱?dāng)今社會(huì)中利益博弈的常態(tài),所以非合作博弈是博弈論探討的主要內(nèi)容。
非合作博弈按照參與者對(duì)其他參與者的信息掌握程度和博弈各方采取行動(dòng)是否有先后順序,可以分為四種不同的類型,即完全信息靜態(tài)博弈、完全信息動(dòng)態(tài)博弈、不完全信息靜態(tài)博弈、不完全信息動(dòng)態(tài)博弈。這四類博弈一個(gè)比一個(gè)精彩,也一個(gè)比一個(gè)難。
完全信息靜態(tài)博弈——是指在博弈過程中,所有參與者事先達(dá)成一項(xiàng)具有約束力的協(xié)議,制定每個(gè)決策主體的行為規(guī)則。如果在沒有外在強(qiáng)制性約束的情況下,各參與者自覺遵守該協(xié)議,沒有人違反協(xié)議規(guī)則,就構(gòu)成一個(gè)納什均衡(概念見第2章)。只要有一個(gè)參與者違背協(xié)議規(guī)定,則此協(xié)議就構(gòu)不成納什均衡,就不可能自動(dòng)實(shí)施,不滿足納什均衡要求的協(xié)議是沒有任何意義的。
完全信息動(dòng)態(tài)博弈——?jiǎng)討B(tài)是世間萬物的基本特征,而靜態(tài)只是一種獨(dú)特的理想狀態(tài)。在現(xiàn)實(shí)生活中,當(dāng)一個(gè)參與者后采取行動(dòng)時(shí),自然會(huì)根據(jù)先前參與者的選擇而適時(shí)調(diào)整自己的決策,而先采取行動(dòng)的參與者也會(huì)理性地預(yù)料到這一點(diǎn),所以也會(huì)考慮自己的選擇對(duì)其他后行動(dòng)參與者的影響。
不完全信息靜態(tài)博弈——是指參與者同時(shí)采取決策或者說決策雖然有先后順序,但后行動(dòng)者并不知道先行動(dòng)者的決策,也沒有機(jī)會(huì)觀察先行動(dòng)者的選擇以調(diào)整自己的決策。每個(gè)參與者的最優(yōu)策略只能是在給定自己的類型和他人類型依從策略的情況下,使自己的期望效用最大化。
不完全信息動(dòng)態(tài)博弈——是指各個(gè)參與者采取的決策有先后順序,且后行動(dòng)者掌握了前者的選擇,獲得了其偏好、策略空間及策略組合等信息,并依此修正自己的決策;而先行動(dòng)的參與者也知道自己行為的效用對(duì)后行動(dòng)者的影響,也會(huì)有意識(shí)地選擇某種行動(dòng)來掩蓋自己決策的真實(shí)目的。
博弈論是一門現(xiàn)實(shí)中非常有趣,理論上又頗有深度的學(xué)問??梢院敛豢鋸埖卣f,掌握博弈論知識(shí)對(duì)每一個(gè)現(xiàn)代人來說實(shí)在是太重要了。因?yàn)樵诂F(xiàn)實(shí)社會(huì)中,每個(gè)人都在試圖使自己的利益最大化,而在取得利益的過程中,往往會(huì)產(chǎn)生矛盾與沖突。利益均衡的實(shí)現(xiàn)主要取決于各自的策略選擇,而策略選擇問題實(shí)際上就是博弈論的本質(zhì)所在。
囚徒困境:坦白還是抵賴?
囚徒困境最早是由美國(guó)普林斯頓大學(xué)數(shù)學(xué)家塔克于1950年提出來的。他當(dāng)時(shí)編纂了一個(gè)故事,意在向斯坦福大學(xué)的心理學(xué)家們解釋什么是博弈論。后來經(jīng)過發(fā)展,囚徒困境成為了博弈論中最著名的案例之一。
所謂囚徒困境,大意是這個(gè)樣子的。
有一天,某富翁在家中被殺,財(cái)物被竊。警方在偵破此案的過程中,抓到了湯姆、杰克兩個(gè)犯罪嫌疑人,并從他們的住處搜出了被害富翁家中丟失的財(cái)物。面對(duì)呈現(xiàn)在眼前的物證,他們承認(rèn)了自己的偷竊行為,但卻矢口否認(rèn)殺害富翁,辯稱是先發(fā)現(xiàn)富翁被殺,然后他倆只是順手牽羊偷了點(diǎn)兒東西。
針對(duì)兩人的狡辯,警方對(duì)他們進(jìn)行了隔離審訊。為了分化瓦解他們,檢察官分別對(duì)兩人說了以下一段話:
本來你們的偷盜罪證據(jù)確鑿,可以就此判你們1年刑期。但是,按照將功贖罪制度,如果你主動(dòng)坦白并且揭發(fā)同伙的殺人罪行,我們將對(duì)你進(jìn)行從寬發(fā)落,判你無罪釋放,但你的同伙要被判30年刑期;如果你頑抗到底,拒不坦白,而被同伙檢舉出你的殺人行為,那么你就要受到嚴(yán)懲,將被判刑30年,你的同伙將被無罪釋放;當(dāng)然,如果你們兩人都坦白,那么你們都將只被判15年刑期。
在這里,博弈的決策主體——湯姆和杰克各有兩個(gè)選擇,即坦白和抵賴。
這兩個(gè)嫌疑犯該怎么辦呢?他們面臨著兩難的選擇——坦白還是抵賴。顯然最好的選擇是兩人都選擇抵賴,都得到最好的結(jié)果——只判刑1年(殺人罪按照疑罪從無原則,證據(jù)不足無法成立,只能以偷盜罪各判每人1年刑期)。但是由于兩人處于隔離的情況下,沒有串供的條件,所以他們不得不仔細(xì)考慮對(duì)方可能采取什么策略,以及對(duì)方采取的策略對(duì)自己有什么影響。
心理較量就這樣開始了,湯姆和杰克都是絕對(duì)精明的人,都只在乎減少自己的刑期,并不關(guān)心自己的選擇會(huì)對(duì)對(duì)方產(chǎn)生什么影響,對(duì)方因?yàn)樽约旱臎Q策又將被判多少年刑期。
湯姆會(huì)這樣推理:假如杰克選擇抵賴的話,我只要坦白,馬上就可以無罪釋放,獲得自由,而我若抵賴則要坐牢1年,顯然坦白比抵賴要?jiǎng)澦愕枚?;假如杰克選擇坦白的話,我若抵賴,則要坐30年牢,坦白卻只坐15年牢,顯然還是坦白為上策。所以說,無論杰克選擇抵賴還是坦白,我的最佳選擇都是坦白,還是坦白交代了吧。
同樣,杰克也跟湯姆一樣會(huì)算計(jì),也會(huì)如此推理。
囚徒困境之所以稱為困境,就是因?yàn)檫@局博弈的最終結(jié)果對(duì)兩個(gè)參與者來說都是最壞的,兩個(gè)嫌疑犯雙雙選擇坦白,結(jié)果皆被判刑15年。這對(duì)他們個(gè)人來說都是從自身利益出發(fā)的最佳選擇,符合他們的個(gè)體理性選擇。因?yàn)樘拱捉淮呖赡軙?huì)被無罪釋放,顯然比自己抵賴可能會(huì)獨(dú)自承受30年刑期要好。而原本對(duì)雙方都有利的策略——兩個(gè)人都抵賴,每人被判1年刑期就不會(huì)出現(xiàn)。
囚徒困境是典型的非合作博弈的范例,為我們探討合作是怎樣形成的提供了極為形象的解說方式,其產(chǎn)生不良后果的原因是兩個(gè)嫌疑犯都從利己目的出發(fā),最終導(dǎo)致?lián)p人不利己,合作沒有產(chǎn)生。反過來我們就可看到:彼此達(dá)成合作是最好的利己策略,但合作必須符合以下黃金定律:“己所不欲,勿施于人?!痹诖嘶A(chǔ)之上的合作才能形成一個(gè)和諧的、良好的社會(huì)環(huán)境。
在囚徒困境中,最好的策略直接取決于對(duì)方所采用的策略,取決于對(duì)方所采取的策略為發(fā)展雙方合作留出多大的余地。獨(dú)立于對(duì)方所用策略之外的、從利己目的出發(fā)的、最好的決策是不存在的。
實(shí)際上,囚徒困境是現(xiàn)實(shí)生活中許多現(xiàn)象的一個(gè)抽象概括,有著廣泛而深刻的意義。同一行業(yè)不同企業(yè)之間激烈的價(jià)格競(jìng)爭(zhēng)就是囚徒困境的典型現(xiàn)象。在價(jià)格博弈中,只要雙方都以對(duì)方為敵手,只關(guān)心自己的利益,那么不管對(duì)方采取怎樣的決策,自己采取低價(jià)策略總會(huì)占便宜,就如同囚徒困境中的犯罪嫌疑人始終認(rèn)為自己坦白為最佳決策一樣,這就促使雙方都采取低價(jià)策略。如可口可樂公司和百事可樂公司之間的價(jià)格競(jìng)爭(zhēng)、各大航空公司之間的價(jià)格戰(zhàn)等等。
如果雙方進(jìn)行合作,共同制定比較高的價(jià)格,就可以避免無休止的價(jià)格大戰(zhàn)并獲得較高的利潤(rùn)。但是這些企業(yè)往往處于利益驅(qū)動(dòng)的囚徒困境之中,雙贏也就成了泡影。不同企業(yè)之間五花八門的價(jià)格聯(lián)盟總是非常短命,原因也就在這里。
合作,有時(shí)是利益需要
農(nóng)村某地有一個(gè)只有上官、歐陽兩戶人家的小居民點(diǎn)。由于地處偏僻,交通不便,兩戶人家與外界的交流十分困難,急需修一條通向外界的公路。假設(shè)修這條路的成本為4個(gè)單位,每戶人家從修好的這條路上獲得的好處為3個(gè)單位。如果沒有中間人協(xié)調(diào),上官、歐陽兩家就各自打著自己的小算盤:
若兩家共同出錢聯(lián)合修路,每家平均分?jǐn)傂蘼烦杀?個(gè)單位,則每戶人家獲得的好處為1(3-2=1)個(gè)單位。當(dāng)只有一戶人家出錢修路而另一家坐享其成時(shí),修路的那戶人家付出4個(gè)單位的成本,卻只得到3個(gè)單位的好處,獲得的純盈利為-1(3-4=-1)個(gè)單位,也就是得不償失,倒貼1個(gè)單位,結(jié)果是虧損的;而坐享其成的一家卻可以使用修好的公路(修路人并不擁有道路的占有權(quán),總不能因?yàn)樾蘖寺肪筒蛔屶従幼撸装撰@得3(3-0=3)個(gè)單位的好處;如果上官、歐陽兩家都不修路,兩家的純盈利皆為0。歸納起來,是否修路的得失情況如圖所示:

對(duì)上官家來說,若歐陽家修路,我家也修路,會(huì)獲得1個(gè)單位的好處,而我家不修路,則會(huì)獲得3個(gè)單位的好處,顯然修路是劣勢(shì)策略;若歐陽家不修路,我家修路,則凈虧損1個(gè)單位,而我家不修路,則不贏也不虧,修路還是劣勢(shì)策略。因而上官家決定不出錢修路。同理,歐陽家也會(huì)選擇不修路。最終修路博弈的結(jié)局將是:兩家都不動(dòng)手,大家都得零。這就應(yīng)了英國(guó)歷史學(xué)家麥考萊的一句話:“大家的事情反而無人管?!?/p>
一般情況下,若上官只有歐陽一家鄰居,歐陽也只有上官一家鄰居,他們兩家多半會(huì)互幫互助,好好商量修路的問題,合力把路修好,大家都得到方便。但是如果出現(xiàn)極端情形,如兩家有仇,那就另當(dāng)別論了。但是,這兩種情形都不在博弈論討論的范圍之內(nèi)。如果不附加說明,博弈論討論所牽涉的參與者,都是經(jīng)濟(jì)學(xué)上的理性人:他們并沒有私人恩怨,也不是世代友好,而只是具有自私本性但并不刻意損害他人利益的人類一員。
公共品和私人品的性質(zhì)不一樣。私人品是純屬私有私用,別人很難占到什么便宜。但公共品就不一樣了,不管由誰提供出來,大家都可以共享。典型的如公園里的長(zhǎng)椅,只要有人出錢出力設(shè)置好了,所有行人都可以坐下休息,哪怕他沒有為此做出絲毫貢獻(xiàn)。那么,這長(zhǎng)椅由誰來設(shè)置呢?恩惠于大家的公共事情又由誰來管呢?
這就是公共品供給的囚徒困境:如果大家都只考慮到自己的得失,只打自己的“小九九”,結(jié)果是誰也不付出,得過且過,也就排除了合作雙贏的前景。所以,公共品問題一定要有人協(xié)調(diào)和管理,大家的事情要有專人進(jìn)行協(xié)調(diào)管理。其實(shí),這就是政府的主要職能之一。對(duì)于一個(gè)國(guó)家來說,最重要的公共品是國(guó)防公安、基礎(chǔ)設(shè)施、科教文衛(wèi)等。政府責(zé)無旁貸地要用來自納稅人的錢,把科教文衛(wèi)、基礎(chǔ)設(shè)施和國(guó)防公安等屬于大家的事情做好。
在修路博弈中,為了解決這條通往外界公路的修建問題,需要政府牽頭,強(qiáng)制性地分別向上官、歐陽兩家各征稅2個(gè)單位,然后投入4個(gè)單位的成本修建好這條能給兩家都帶來好處的公路。有句俗語不是說嘛“要想富,先修路?!甭沸藓昧耍涂梢允箖蓱艟用竦纳钏皆谝欢ǔ潭壬系玫礁纳啤MǔR仓挥姓雒?,大家才能走出誰都不愿意去修建公共設(shè)施的囚徒困境。當(dāng)然了,羊毛出在羊身上,公民稅收是必不可少的,因此大家都要自覺承擔(dān)納稅的義務(wù)。
非合作博弈:人類自私自利的本性
“選A還是選B”這個(gè)問題不僅讓富有實(shí)戰(zhàn)經(jīng)驗(yàn)的商人們苦惱不堪,也同樣折磨著商學(xué)院的天之驕子們。一位教授讓自己班上的27名學(xué)生進(jìn)行一個(gè)博弈游戲,這個(gè)博弈會(huì)把所有學(xué)生帶入囚徒困境之中。
游戲規(guī)則如下:
假設(shè)每一個(gè)學(xué)生都是一家企業(yè)的老板,現(xiàn)在他必須決定自己選擇A——代表著生產(chǎn)高質(zhì)量的商品來維持較高價(jià)格,還是選擇B——代表著生產(chǎn)假貨以通過別人所失來換取自己所得。學(xué)生選擇A可獎(jiǎng)勵(lì)2元,選擇B可獎(jiǎng)勵(lì)2.15元。但選擇A將產(chǎn)生總體收益:1個(gè)學(xué)生選擇A,總體收益為2元;2個(gè)學(xué)生選擇A,總體收益是4(2×2=4)元,依此類推……選擇B將無總體收益可言。同時(shí),將選擇A的學(xué)生所產(chǎn)生的總體收益平均分給這27個(gè)學(xué)生。
這是教授事先設(shè)計(jì)好的一個(gè)博弈,以確保每個(gè)選擇B的學(xué)生總比選擇A的學(xué)生多得0.15元。這個(gè)假定也有其現(xiàn)實(shí)意義,因?yàn)樯a(chǎn)質(zhì)次的假貨所付出的成本總比生產(chǎn)高質(zhì)量的商品要低,反過來,其利潤(rùn)當(dāng)然要高。
但是,選擇B的人數(shù)越多,就意味著選擇A的人數(shù)越少,則他們的總體收益就會(huì)越少,總體收益越少,平均分到每個(gè)人手中的收益就越少。這個(gè)假設(shè)也有道理,隨著市場(chǎng)上充斥著的假貨的增多,消費(fèi)者便會(huì)逐漸地認(rèn)清它們的面目,就會(huì)理性地不再購買它們,這就直接導(dǎo)致了假貨生產(chǎn)者(游戲中指選擇B的學(xué)生)利潤(rùn)的減少。而且,市場(chǎng)上出現(xiàn)的假貨太多,市場(chǎng)秩序就會(huì)混亂,該產(chǎn)品的信譽(yù)就會(huì)降低,這也直接損害了高質(zhì)量產(chǎn)品生產(chǎn)者(游戲中指選擇A的學(xué)生)的利益。
假設(shè)27名學(xué)生都選擇A,那么他們每人各得2元,且總體收益是54(2×27=54)元,將54元平均分配給27個(gè)學(xué)生,也是每人2(54÷27=2)元,則每個(gè)學(xué)生最后的實(shí)際所得為4(2+2=4)元。
假設(shè)有1個(gè)學(xué)生有了自私自利的打算,偷偷改變主意,選擇B。那么,選擇A的學(xué)生就有26名,每人各得2元,總體收益是52元(2×26=52),將52元平均分配給全班27個(gè)學(xué)生,每人各分得1.9(52÷27≈1.9)元,則選擇A的學(xué)生最后的實(shí)際所得為3.9(2+1.9=3.9)元,比原來少得0.1元;而選擇B的那個(gè)學(xué)生最后可得4.05(2.15+1.9=4.05)元,比原來多了0.05元。
假設(shè)有2個(gè)學(xué)生改變主意,改選B,則有25名學(xué)生選擇A,每人各得2元,總體收益是50(2×25=50)元,將50元平均分配給27個(gè)學(xué)生,每人可分得1.85(50÷27≈1.85)元,則選擇A的25名學(xué)生最后每人各得3.85(2+1.85=3.85)元;而選擇B的那2個(gè)學(xué)生最后每人各得4(2.15+1.85=4)元。
假設(shè)有3個(gè)學(xué)生改選B,那么,選擇A的學(xué)生就有24名,每人各得2元,總體收益是48(2×24=48)元,將48元平均分配給全班27個(gè)學(xué)生,每人可分得1.78(48÷27≈1.78)元,則選擇A的學(xué)生每人各得3.78(2+1.78=3.78)元;而選擇B的3個(gè)學(xué)生每人各得3.93(2.15+1.78=3.93)元。
……
假設(shè)全班27個(gè)學(xué)生為了盡可能地使自己的收益達(dá)到最大,一致選擇自私的策略,統(tǒng)統(tǒng)選擇B,則總體收益是0元,最后每個(gè)學(xué)生各得2.15元。
由以上分析可以看出,當(dāng)只有1個(gè)學(xué)生選擇B的時(shí)候,該學(xué)生能獲得最大收益4.05元,其余26名學(xué)生相對(duì)會(huì)蒙受一點(diǎn)損失,只能獲得3.9元。反過來,如果他們進(jìn)行合作,協(xié)同行動(dòng),不惜將個(gè)人的收益減至最小,都選擇A,則每個(gè)人都能獲得最大收益4元。選擇B的學(xué)生人數(shù)越多,每個(gè)人的最后收益越少。
演練這個(gè)博弈的時(shí)候,起初每個(gè)學(xué)生都被相互隔離開,不允許討論,單獨(dú)做選擇。全班27名學(xué)生無疑都像囚徒困境中的嫌疑犯一樣,都是聰明絕頂?shù)睦硇匀耍瑐€(gè)個(gè)精于算計(jì),為了多獲得0.05元,不約而同地都選擇了B。
后來教授允許學(xué)生之間相互討論,以便達(dá)成共識(shí)。結(jié)果同意合作而選擇A的學(xué)生總數(shù)從3人到14人不等。在最后一次帶有約束性協(xié)議的博弈里,只有4個(gè)學(xué)生愿意選擇A。此時(shí),全體學(xué)生的總收益是65.45[2×4+2.15×(27-4)+2×4=65.45]元,比全體學(xué)生成功合作可以得到的總收益108(2×27+2×27=108)元減少了42.55(108-65.45=42.55)元。
這個(gè)游戲也可以看作是非合作博弈的又一典型模式,并且比囚徒困境更深刻地揭示了人自私自利的本性。這一模式說明了這樣一種情況——處于相同困境狀態(tài)下,各方都不知道別人的選擇,因而只能猜測(cè)每個(gè)人都是絕對(duì)的理性人,最后必將背叛其他人,從自己的利益出發(fā),做出最有利于自己的選擇。
處于困境中的人們與困境之間是一種不可逆轉(zhuǎn)的關(guān)系,也就是說當(dāng)他們無法通過自己的力量去左右局勢(shì),獲得集體收益最大時(shí),就只能在困境的局勢(shì)下想辦法盡可能讓自己的損失最小,收益最大。
這個(gè)游戲在現(xiàn)實(shí)社會(huì)中也極具代表性。比如,某村有一塊公共草地可供牧人放牧,每個(gè)牧民都清楚地知道增加自己養(yǎng)羊的數(shù)目,可以增加收入。但由于是共屬大家的草地,沒有人會(huì)去關(guān)心草地的承載極限,于是羊越來越多,草越來越少。最后草地空了,草沒了,羊也沒了。這是一個(gè)帶有悲劇性的博弈過程。當(dāng)出現(xiàn)類似情況的時(shí)候,就需要有外界力量對(duì)其進(jìn)行干預(yù),制定相應(yīng)規(guī)則,從而使草地得到最合理的利用,大家才能真正得到實(shí)惠。
績(jī)效考核的上下博弈
企業(yè)老板為促使員工之間互相競(jìng)爭(zhēng),努力工作,有時(shí)會(huì)故意在員工之間形成囚徒困境。為了形成這種激勵(lì)員工賣力工作的囚徒困境,老板可以采取這一策略:獎(jiǎng)勵(lì)表現(xiàn)最好的員工,并淘汰未達(dá)工作標(biāo)準(zhǔn)的員工。假如員工都接受了這場(chǎng)博弈,那么他們就會(huì)兢兢業(yè)業(yè)地工作了。
假設(shè)某公司開發(fā)出一種新產(chǎn)品,并招聘了20個(gè)業(yè)務(wù)員來對(duì)它進(jìn)行推銷,此時(shí)作為公司老板的你,要如何決定每個(gè)業(yè)務(wù)員的工作量呢?由于這種產(chǎn)品過去在市場(chǎng)上從來沒有出現(xiàn)過,所以你根本無法評(píng)估能干又勤奮的業(yè)務(wù)員每個(gè)月到底能賣多少產(chǎn)品。
解決的唯一辦法就是根據(jù)相對(duì)績(jī)效標(biāo)準(zhǔn)來評(píng)估每個(gè)業(yè)務(wù)員的表現(xiàn),也就是拿他們的工作業(yè)績(jī)進(jìn)行相互比較,給予銷售量高的業(yè)務(wù)員額外的獎(jiǎng)勵(lì)。此時(shí),相對(duì)績(jī)效評(píng)估標(biāo)準(zhǔn)將會(huì)使所有業(yè)務(wù)員陷入積極工作的囚徒困境之中。
以甲、乙兩個(gè)業(yè)務(wù)員之間的博弈為例,甲、乙都可以選擇每月工作20天或25天。雖然由于此項(xiàng)工作本身具有特殊性,跑外的業(yè)務(wù)員不比坐辦公室上班的員工,老板無法準(zhǔn)確判斷業(yè)務(wù)員的實(shí)際工作時(shí)間,但是他們也不是全然就沒有了管束,老板可以根據(jù)每月月底各個(gè)業(yè)務(wù)員的銷售業(yè)績(jī),對(duì)他們這個(gè)月的工作狀況進(jìn)行逐一考核。一般情況下,每月工作25天的業(yè)務(wù)員推銷出的產(chǎn)品會(huì)比每月工作20天的業(yè)務(wù)員要多。
對(duì)公司而言,只要兩個(gè)業(yè)務(wù)員的工作時(shí)間一樣,就會(huì)得到相同的評(píng)價(jià)。在這種情況下,兩個(gè)業(yè)務(wù)員若要得到相同的評(píng)價(jià),很可能會(huì)選擇集體偷懶。因?yàn)槊總€(gè)人都偷懶時(shí),大家的表現(xiàn)就會(huì)不相上下,顯然會(huì)選擇每月工作20天,而不會(huì)選擇每月工作25天。當(dāng)然,兩個(gè)業(yè)務(wù)員都會(huì)失去成為業(yè)務(wù)精英的機(jī)會(huì),但放棄這個(gè)機(jī)會(huì)而換取舒適的工作環(huán)境,也許是很值得的。
不過,老板針對(duì)此種情況而設(shè)計(jì)的囚徒困境卻迫使他們不得不延長(zhǎng)工作時(shí)間。假如甲每月工作20天,乙工作25天,乙就會(huì)得到高等的評(píng)價(jià),獲得獎(jiǎng)勵(lì);要是甲每月工作25天,但乙每月只工作20天,那么乙將會(huì)受到老板的批評(píng),飯碗可能就保不住了。所以對(duì)甲、乙來說,每月工作25天是他們的最佳選擇。
雖然員工們都想輕松度日,在工作中偷懶,但當(dāng)公司老板以相對(duì)評(píng)估標(biāo)準(zhǔn)來衡量員工工作業(yè)績(jī)時(shí),囚徒困境的形成就使得某一員工很難說服別人一起偷懶。退一步想,假如員工互相串通,集體偷懶,相對(duì)標(biāo)準(zhǔn)所形成的囚徒困境遭到瓦解,老板要怎么做才能激勵(lì)員工努力工作呢?此時(shí),就必須采取客觀的績(jī)效評(píng)估標(biāo)準(zhǔn),把表現(xiàn)不佳的人毫不留情地開除。
簽訂合作協(xié)議:由婚姻想到的
嚴(yán)格的囚徒困境形成的前提條件是參與博弈的各方不可以進(jìn)行合作,不能夠制定有約束力的合作協(xié)議。但是在實(shí)際生活中,合作是社會(huì)文明的基礎(chǔ),這已得到先哲們的認(rèn)可,哲學(xué)家盧梭不就寫了《社會(huì)契約論》一書嘛,他就認(rèn)為契約是整個(gè)人類社會(huì)存在的前提條件。聯(lián)系實(shí)際生活,興修水利、組織國(guó)防、創(chuàng)建企業(yè)等不都是因合作而實(shí)現(xiàn)的嗎?
當(dāng)然,我們現(xiàn)在所說的以簽訂協(xié)議的方式來走出囚徒困境是存在一定的限定條件的,即博弈必須重復(fù)若干次,至少多于一次。對(duì)于一次性博弈而言,簽訂協(xié)議是毫無意義的。
何謂重復(fù)博弈、一次性博弈?
以戀愛博弈為例,重復(fù)博弈是指男女雙方在長(zhǎng)期交往的過程中,隨時(shí)都在進(jìn)行著的博弈,因?yàn)橄鄲鄣倪^程中任何一個(gè)時(shí)點(diǎn)都是有可能分手的。無數(shù)愛情故事中的悲歡離合、起伏跌宕正是重復(fù)博弈的表現(xiàn)。而那種素不相識(shí)的男女,偶爾在酒吧中相遇,于是賓館訂房、玩樂一場(chǎng),拂曉之后就分道揚(yáng)鑣的一夜情,就是典型的一次性博弈。
實(shí)際上,在重復(fù)型的囚徒困境中,簽訂合作協(xié)議并不是很困難,困難的是合作協(xié)議達(dá)成之后,是否對(duì)博弈各方具有很強(qiáng)的約束力,能夠使得博弈參與者都不會(huì)有私自改變主意的行為。比如由愛情而引出的婚姻,俗話說“婚姻是愛情的墳?zāi)埂保珡牟┺恼摰慕嵌葋砜?,婚姻恰恰是男女雙方簽訂的一種具有一定約束力的協(xié)議,一旦某一方背叛婚姻,他就會(huì)受到家庭的壓力與社會(huì)輿論的譴責(zé)。
現(xiàn)在,博弈論專家已經(jīng)用數(shù)學(xué)知識(shí)證明,在無窮次重復(fù)博弈的情況下,合作是一種相對(duì)穩(wěn)固的狀態(tài)。因?yàn)槿魏我淮伪撑讯紩?huì)導(dǎo)致對(duì)方在下一輪博弈中進(jìn)行報(bào)復(fù),而雙方都采取合作態(tài)度則會(huì)帶來合作收益,兩方都相安無事地處下去。
如何與對(duì)手達(dá)成合作?
在囚徒困境中,我們已經(jīng)知道了這樣一個(gè)道理:從個(gè)體的眼光看,決策目標(biāo)是在與對(duì)手的一系列對(duì)局中盡可能地使自己的利益最大化。這使得博弈參與者會(huì)受到背叛總體利益的短期誘惑,總是想贏對(duì)方,結(jié)果可能得不償失。因?yàn)閷?duì)方也會(huì)全力反擊,招致雙方都難以全身而退,造成兩敗俱傷的局面。在這種情況下,即使雙方都沒有繼續(xù)對(duì)抗下去的意愿,但開弓沒有回頭箭,他們也只能咬緊牙關(guān),硬著頭皮撐下去。但是與對(duì)方建立合作卻可以使雙方都得到更多的長(zhǎng)期利益。
在陷入囚徒困境時(shí)應(yīng)如何表現(xiàn),才能盡可能地與對(duì)手達(dá)成合作呢?以下是對(duì)參與者的兩個(gè)簡(jiǎn)單的建議:
◇不要嫉妒
在大多數(shù)博弈中,人們都習(xí)慣于考慮零和對(duì)局:一方贏,就預(yù)示著另一方必輸。然而生活中的大多數(shù)對(duì)局都是非零和的,不是此消彼長(zhǎng)的關(guān)系,而是雙方都可以做得比較好或是比較差。雙方達(dá)成合作是極有可能的,只是并不一定都能實(shí)現(xiàn)而已。
人們?cè)诤芏嗲闆r下都傾向于采用相對(duì)標(biāo)準(zhǔn),把對(duì)方的成功與自己的成功對(duì)立起來,認(rèn)為對(duì)方成功了自己就一定失敗。這種標(biāo)準(zhǔn)的直接后果就是會(huì)引發(fā)人的嫉妒,導(dǎo)致參與者企圖用自己選擇的策略抵消對(duì)方已經(jīng)占有的優(yōu)勢(shì)。
在囚徒困境的模式下,抵消對(duì)方優(yōu)勢(shì)的唯一途徑就是背叛。如此便會(huì)進(jìn)入一個(gè)惡性循環(huán)的怪圈,一次背叛會(huì)導(dǎo)致更多的背叛和雙方都受到懲罰的結(jié)局。可以說,嫉妒的出發(fā)點(diǎn)是自我保護(hù),但其結(jié)果卻是自我毀滅。
在任何一局非零和的博弈中,你沒有必要非得比對(duì)方做得好。要求自己比對(duì)方做得好不是一個(gè)很好的目標(biāo),除非你想消滅對(duì)方。因?yàn)檫@個(gè)目標(biāo)在大多數(shù)情況下是不可能或者說是很難實(shí)現(xiàn)的。尤其是當(dāng)你要和許多不同的對(duì)手打交道時(shí),就更不要去嫉妒對(duì)方的成功。因?yàn)樵谥貜?fù)型囚徒困境中,其他人的成功是你成功的前提。
舉一個(gè)大家都比較熟悉的例子。一家商店從供應(yīng)商那兒購買商品,嫉妒供應(yīng)商的利潤(rùn)是完全沒有必要的。任何由嫉妒而引起的企圖通過不按時(shí)付賬等不合作行為來減少供應(yīng)商利潤(rùn)的做法,都是對(duì)自己不利的魯莽舉動(dòng),都將激起供應(yīng)商諸如拖延發(fā)貨、不愿意打折扣或者不提供市場(chǎng)變化信息等的報(bào)復(fù)行為。商店就會(huì)為自己的嫉妒心理付出極大的代價(jià)。
◇不要首先背叛,耍小聰明
博弈論專家通過辯證法分析指出:只要對(duì)方有意合作,你也積極配合,促成合作,就會(huì)有好處。對(duì)方是否有合作意愿的最好的表現(xiàn)就是對(duì)方的出發(fā)點(diǎn)是否善良,是否不首先背叛。
當(dāng)博弈一方從一些不善良的出發(fā)點(diǎn)行事時(shí),他往往會(huì)使用相當(dāng)復(fù)雜的方法來試探自己的這個(gè)出發(fā)點(diǎn)能否逃脫對(duì)方的懲罰。比如嘗試在第一步背叛,如果第一步的結(jié)果顯示對(duì)方進(jìn)行報(bào)復(fù)的話,就馬上撤回?;蛘呤窃诒撑亚暗却畮撞剑磳?duì)方能否被哄騙或偶爾被占便宜。如果能的話,那就更頻繁地、肆無忌憚地增加背叛的砝碼,直到受到對(duì)方的反擊再被迫撤回。
但需要指出的一點(diǎn)是,這些嘗試背叛的策略表現(xiàn)得都不怎么好。因?yàn)楸撑巡呗缘膶?shí)施者沒有考慮自己的行為可能引起的對(duì)方的變化,事實(shí)上對(duì)方對(duì)你所采取的策略是有反應(yīng)的,他將會(huì)把你的行為看作是你是否會(huì)同意合作的信號(hào)。你自己的行為會(huì)映射到你自己身上,自食其果,由此而導(dǎo)致的沖突的代價(jià)是很高的。
當(dāng)然,你也可以嘗試一種比較保險(xiǎn)的方式,即先背叛對(duì)方直到對(duì)方提出合作,才開始合作。然而,這是一個(gè)理論上較保險(xiǎn),而實(shí)際上很有風(fēng)險(xiǎn)的策略,因?yàn)槟阕畛醯谋撑芽赡芤饘?duì)方的報(bào)復(fù),使你處于要么被占便宜,要么彼此背叛、兩敗俱傷的兩難境地。如你發(fā)現(xiàn)被對(duì)方報(bào)復(fù)了,再懲罰對(duì)方的報(bào)復(fù),而對(duì)方再對(duì)你的懲罰進(jìn)行報(bào)復(fù)……這種循環(huán)就會(huì)一直延續(xù)下去,后果可想而知。
有的參與者會(huì)耍一些小聰明,比如采取相當(dāng)復(fù)雜的策略,以至于打亂對(duì)方的常規(guī)思維,讓對(duì)方摸不準(zhǔn)自己的思路而陷入不知所措的困境。當(dāng)然,對(duì)方也會(huì)采取一個(gè)隨機(jī)的策略,如果你給對(duì)方的感覺是無反應(yīng)的,對(duì)方當(dāng)然就猜不透你是如何想的,自然也感受不到來自你的促成合作的激勵(lì),也就不會(huì)去積極地促成合作。策略復(fù)雜到不可理解時(shí)是非常危險(xiǎn)的。
“一報(bào)還一報(bào)”策略
現(xiàn)在,人們對(duì)博弈論的研究非常廣泛,以至于有人形象地說:“最新的經(jīng)濟(jì)學(xué)和管理學(xué)都已經(jīng)用博弈論的理論和工具重新寫過了?!彪m說有些夸張,但也絕非毫無根據(jù),博弈論在現(xiàn)代生活中確實(shí)占了很大比重。博弈參與者有很多有趣且富于哲理的選擇策略,適用于重復(fù)博弈的“一報(bào)還一報(bào)”就是其中之一。
“一報(bào)還一報(bào)”策略大致是這樣的:它總是以合作開局,在第一步合作,但從此以后就采取“以其人之道,還治其人之身”的策略,采用對(duì)方上一步的選擇。也就是說,“一報(bào)還一報(bào)”意味著在對(duì)方每背叛一次之后,自己就背叛一次,而永遠(yuǎn)不先背叛對(duì)方。
“一報(bào)還一報(bào)”是一種綜合了善意性、寬容性、報(bào)復(fù)性、適應(yīng)性和清晰性的合作策略,無論對(duì)于個(gè)人還是組織,其行為方式都有很大的指導(dǎo)意義。總的來說,它比競(jìng)賽中的其他策略都好。
◇“一報(bào)還一報(bào)”的善意性
“一報(bào)還一報(bào)”策略放棄了占他人便宜的可能性,永遠(yuǎn)不先背叛對(duì)方,永遠(yuǎn)不先把自己的利益建立在他人的損失之上。從這一特點(diǎn)來看,它是善意的。因?yàn)椴捎靡哉急阋藶槌霭l(fā)點(diǎn)的策略引發(fā)的問題是多種多樣的。
首先,如果一個(gè)參與者用背叛來試探是否可以占他人的便宜,那么他就得冒被那些可能被激怒的規(guī)則遵守者報(bào)復(fù)的風(fēng)險(xiǎn);其次,雙方的報(bào)復(fù)一旦開始,就會(huì)陷入惡性循環(huán)之中,雙方都很難全身而退。而“一報(bào)還一報(bào)”的這種善意性可防止博弈參與者陷入不必要的麻煩之中。
“一報(bào)還一報(bào)”的善意性使得其實(shí)施者從來不會(huì)在游戲中比對(duì)方少得太多好處。事實(shí)上,他也不可能比對(duì)方多得好處。因?yàn)檫@個(gè)策略總是讓對(duì)方先背叛,這就注定了策略實(shí)施者的被背叛次數(shù)肯定比對(duì)方少或者和對(duì)方一樣。所以“一報(bào)還一報(bào)”不是讓實(shí)施者得到與對(duì)方一樣多的好處,就是比對(duì)方略少。
“一報(bào)還一報(bào)”之所以會(huì)獲得比其他任何策略更多的總體利益,就是因?yàn)樗皇强看驌魧?duì)方取勝,而是引導(dǎo)對(duì)方做出對(duì)雙方都有好處的行為。
◇“一報(bào)還一報(bào)”的寬容性
“一報(bào)還一報(bào)”策略還給出了一個(gè)簡(jiǎn)單但又很有力量的建議:無論對(duì)方的選擇是合作還是背叛,策略實(shí)施者都要給予回報(bào)。在下一輪博弈中對(duì)對(duì)手的前一次合作給予簡(jiǎn)單的回報(bào),哪怕以前這個(gè)對(duì)手曾經(jīng)背叛過自己。并且“一報(bào)還一報(bào)”總是在對(duì)方每次背叛之后只報(bào)復(fù)一次,這點(diǎn)足以說明其具有寬容性。它的這種寬容性有助于重新恢復(fù)合作。
◇“一報(bào)還一報(bào)”的報(bào)復(fù)性
“一報(bào)還一報(bào)”策略的運(yùn)用者會(huì)采取背叛的行動(dòng)來懲罰對(duì)手前一次的背叛,從這個(gè)意義上來說它又是具有報(bào)復(fù)性的。“一報(bào)還一報(bào)”從不先背叛對(duì)方,但是不管過去的關(guān)系如何好,它總能被對(duì)方的一次背叛激怒,而迅速做出反應(yīng),給予相同程度的報(bào)復(fù)行為。它的這種報(bào)復(fù)性使對(duì)方試著背叛一次之后就不敢再背叛,增大了轉(zhuǎn)回合作的概率。
◇“一報(bào)還一報(bào)”的適應(yīng)性
“一報(bào)還一報(bào)”能在眾多的策略中獨(dú)占鰲頭,比其他任何策略表現(xiàn)得都好,足以說明它是一個(gè)很具適應(yīng)性的策略。它不僅可與最初的各種策略相處得很好,而且能與那些未來可能在群體中占較大份額的成功策略相處得很好。它只會(huì)在與其他成功的策略相互交流時(shí)繁榮起來,而決不會(huì)毀壞自己已經(jīng)得到的進(jìn)一步改善狀況的基礎(chǔ)。任何想占“一報(bào)還一報(bào)”便宜的策略最終將傷害自己,屈服于“一報(bào)還一報(bào)”。
◇“一報(bào)還一報(bào)”的清晰性
“一報(bào)還一報(bào)”在競(jìng)賽中能夠取得成功的另一個(gè)重要原因是它具有很強(qiáng)的清晰性,極易被對(duì)方理解,從而引出長(zhǎng)期合作。策略實(shí)施者讓對(duì)方清楚地意識(shí)到自己愿意合作是“一報(bào)還一報(bào)”成功的訣竅所在。當(dāng)你選用“一報(bào)還一報(bào)”策略時(shí),對(duì)方很容易理解你在干什么,接下來要干什么,是打算合作還是想要背叛,接著會(huì)根據(jù)你的反應(yīng)而做出相應(yīng)的回應(yīng)。
在博弈過程中,你的任何一次背叛都容易被對(duì)方感受到,進(jìn)而迫使對(duì)方采取一對(duì)一的報(bào)復(fù)。而你所做的任何一次促進(jìn)合作的努力,對(duì)方也會(huì)在第一時(shí)間感受到。此時(shí),對(duì)方能輕易地分析出應(yīng)付你“一報(bào)還一報(bào)”的最好方式就是與你合作,互利互惠。當(dāng)你遇到對(duì)方使用“一報(bào)還一報(bào)”策略時(shí),也只有馬上和他合作才是你最佳的選擇,這樣你將可以在下一步博弈中得到合作。
“一報(bào)還一報(bào)”策略的偉大勝利,對(duì)人類和其他生物的合作行為的形成具有深遠(yuǎn)意義。阿克塞爾羅德在《合作的進(jìn)化》一書中指出:“‘一報(bào)還一報(bào)’策略能引發(fā)社會(huì)各個(gè)領(lǐng)域的合作,包括在最無指望的環(huán)境中的合作?!?/p>
舉個(gè)最明顯的例子,就是在第一次世界大戰(zhàn)中“自己活,也讓他人活”原則的產(chǎn)生。當(dāng)時(shí)在前線的戰(zhàn)壕里,軍隊(duì)紀(jì)律規(guī)定自己的士兵不準(zhǔn)亂開槍殺人,希望促使對(duì)方也這么做。結(jié)果證明,這個(gè)原則得到了很好的實(shí)行,給了當(dāng)時(shí)陷入困境數(shù)月的雙方軍隊(duì)相互了解、相互適應(yīng)的機(jī)會(huì)。
即使是“一報(bào)還一報(bào)”這種有效的破解囚徒困境的策略,也不是萬能的,也難免會(huì)產(chǎn)生兩敗俱傷的危險(xiǎn)。
首先,當(dāng)“一報(bào)還一報(bào)”策略重復(fù)使用的時(shí)候,就會(huì)使博弈雙方陷入循環(huán)報(bào)復(fù)的局面,致使任何一方都難以脫身;其次,由于“一報(bào)還一報(bào)”的核心是對(duì)對(duì)方的任何行為都要給予及時(shí)有效的回報(bào),就是說當(dāng)遭遇他人侵犯時(shí)也一定會(huì)“以牙還牙”,毫不妥協(xié)。
但須強(qiáng)調(diào)的一點(diǎn)是,這種策略的前提是“人不犯我,我不犯人”,這樣可大大降低博弈參與者相互傷害的概率??偟膩碚f,“一報(bào)還一報(bào)”策略還是利大于弊,目前應(yīng)該算是破解囚徒困境的理想策略。