第1章 博弈論,策略的選擇
博弈論(Game Theory),看起來玄而又玄,似乎高深莫測,但直譯下來就是游戲理論的意思。不妨說,博弈論就是通過玩游戲而獲得一些人生競爭策略的理論。
在博弈論的所有案例和模型中,囚徒困境無疑是最著名的,可以說,不談囚徒困境,就無從談博弈論。
什么是博弈論?
博弈論,又叫對策論,是研究兩人或多人之間競爭合作關系的一門學科。用我們日常的語言來說,博弈論就是研究在不同情境下策略選擇的一種理論。它既是經濟學的一個重要學科,也是現代數學的一個新分支。
在經濟學上,博弈論是一個非常重要的理論概念,通過使用嚴謹的數學模型來解決現實生活中的各種利害沖突問題。具體來說,博弈論是指某個個人或是組織,在一定的環境條件和規則約束下,依靠所掌握的信息選擇并實施各自所傾向的行為或是策略,從中取得相應結果或收益的過程。
博弈論思想古已有之,早在2000多年前,博弈論的原始思想即已萌芽。古代文獻中不乏充滿博弈思維的案例。《孫子兵法》《三十六計》《三國演義》等等,就不僅僅是軍事著作,而且可以算是很好的博弈論教材,只不過還沒有上升到現代博弈論的層次而已。
博弈論最初主要研究的是象棋、圍棋以及賭博中的勝負問題。那時候,人們對博弈局勢的把握只停留在經驗層面上,并沒有向理論層面發展,其正式發展成一門學科則是在20世紀初。
1928年,美籍匈牙利數學家約翰·馮·諾伊曼提出了博弈論的基本原理,并與經濟學家奧斯卡·摩根斯頓合作,于1944年發表了《博弈論與經濟行為》一書,提出了合作博弈的基本模型,并將二人博弈結構推廣到n人博弈結構。自此,博弈論被引入了經濟領域,奠定了這一學科的基礎和理論體系。人們都把諾伊曼和摩根斯頓的這部巨著看作是現代博弈理論誕生的標志。
目前,博弈論作為分析、解決沖突和合作的理論工具,已經在管理學、國際政治學、經濟學、外交學和社會學等領域得到了廣泛的應用,為解決不同實體的沖突和合作提供了寶貴的方法,并日漸發展成為一熱門學科。
◇博弈的三要素
任何一局博弈都至少包含以下三個基本要素:
——決策主體
決策主體,又譯為參與者、局中人或博弈者。在一場競賽或一局博弈中,每一個有決策權的參與者都構成一個決策主體。
決策主體的目的是通過選擇行動方案或者戰略以使自己的效用水平最大化。只有兩個決策主體的博弈稱為兩人博弈,多于兩個決策主體的博弈稱為多人博弈。一局博弈中的決策主體可以是自然人,也可以是團體:如企業、國家等。
——策略
策略,又譯為戰略,即決策主體在給定信息的情況下的行動規則,它規定了決策主體在什么時候采取什么行動。
一局博弈中,每個決策主體都會選擇實際可行的、完整的行動方案。一個可行的自始至終地對全局進行籌劃的行動方案,稱為這個決策主體的一個策略。如果在一局博弈中決策主體的策略是有限的,就稱為有限博弈,相反則稱為無限博弈。
——效用
效用,又叫作支付,是指在一個特定的策略組合下,決策主體得到的確定效用水平,或者說是期望效用水平。簡單來說,效用就是指進行博弈后的收益。
效用是所有決策主體真正關心的東西,每個決策主體在一局博弈結束時得到的效用,不僅與該決策主體自身所選擇的策略有關,而且與全部決策主體所取定的一組策略有關。一局博弈結束時每個決策主體得到的效用是全體決策主體所取定的一組策略的函數,通常稱為支付函數。
◇博弈的分類
博弈可以從多個角度進行分類。
——按照博弈各方是否同時決策,博弈可以分為靜態博弈和動態博弈
靜態博弈是指在博弈過程中,參與者同時決策或同時行動,或者盡管決策或行動有先后順序,但后行動者并不知道先行動者采取了什么具體的決策或行動。比如說工程招標(排除標書泄密的違規行為),其截止日期是6月1日,盡管有的競標者在5月上旬就投了標,有的競標者直到5月下旬才投標,參與者的決策時間有先后之分,但效果卻與同時決策是一樣的。
動態博弈是指在博弈過程中,參與者的行動有先后順序,并且后行動者可以觀察到先行動者所采取的行動。
——按照參與者對其他參與者的了解程度,博弈可以分為完全信息博弈和不完全信息博弈
完全信息博弈是指在博弈過程中,每一位參與者對其他參與者的策略空間、策略組合及收益信息有完全的了解。
如果參與者對其他參與者的策略空間、策略組合及收益信息了解得不夠確切,或者說并沒有掌握所有參與者的策略空間、策略組合及收益信息,在此種情況下進行的博弈就是不完全信息博弈。此時,參與者所能做的就是努力使自己的期望支付或期望效用最大化。
——按照參與者能否達成約束性的協議以便集體行動,博弈可以分為合作博弈和非合作博弈
合作博弈是指所有參與者都從利己的角度出發,與其他參與者進行談判并達成具有約束力的協議或形成聯盟,參與者在協議范圍內進行博弈,其結果對聯盟各方均有利。合作博弈主要研究人們達成協議時,如何分配合作得到的收益,即收益分配問題。
合作博弈強調團體的理性、效率、公平和公正。典型的合作博弈是某一行業的寡頭企業之間的串謀行為,即企業之間通過公開或者私下簽訂協議,對各自的價格或產量進行限制,以達到獲取更多壟斷利潤的目的。
反之,不能使其他參與者遵守某一協議,各參與者只能選擇自己的最優戰略的行為,則屬于非合作博弈。非合作博弈主要研究人們在利益相互影響的局勢中如何選擇、決策,使自己的收益最大,即策略選擇問題。
非合作博弈強調個人理性、個人最優決策。下面將要講到的囚徒困境就是典型的非合作博弈。因為非合作是當今社會中利益博弈的常態,所以非合作博弈是博弈論探討的主要內容。
非合作博弈按照參與者對其他參與者的信息掌握程度和博弈各方采取行動是否有先后順序,可以分為四種不同的類型,即完全信息靜態博弈、完全信息動態博弈、不完全信息靜態博弈、不完全信息動態博弈。這四類博弈一個比一個精彩,也一個比一個難。
完全信息靜態博弈——是指在博弈過程中,所有參與者事先達成一項具有約束力的協議,制定每個決策主體的行為規則。如果在沒有外在強制性約束的情況下,各參與者自覺遵守該協議,沒有人違反協議規則,就構成一個納什均衡(概念見第2章)。只要有一個參與者違背協議規定,則此協議就構不成納什均衡,就不可能自動實施,不滿足納什均衡要求的協議是沒有任何意義的。
完全信息動態博弈——動態是世間萬物的基本特征,而靜態只是一種獨特的理想狀態。在現實生活中,當一個參與者后采取行動時,自然會根據先前參與者的選擇而適時調整自己的決策,而先采取行動的參與者也會理性地預料到這一點,所以也會考慮自己的選擇對其他后行動參與者的影響。
不完全信息靜態博弈——是指參與者同時采取決策或者說決策雖然有先后順序,但后行動者并不知道先行動者的決策,也沒有機會觀察先行動者的選擇以調整自己的決策。每個參與者的最優策略只能是在給定自己的類型和他人類型依從策略的情況下,使自己的期望效用最大化。
不完全信息動態博弈——是指各個參與者采取的決策有先后順序,且后行動者掌握了前者的選擇,獲得了其偏好、策略空間及策略組合等信息,并依此修正自己的決策;而先行動的參與者也知道自己行為的效用對后行動者的影響,也會有意識地選擇某種行動來掩蓋自己決策的真實目的。
博弈論是一門現實中非常有趣,理論上又頗有深度的學問。可以毫不夸張地說,掌握博弈論知識對每一個現代人來說實在是太重要了。因為在現實社會中,每個人都在試圖使自己的利益最大化,而在取得利益的過程中,往往會產生矛盾與沖突。利益均衡的實現主要取決于各自的策略選擇,而策略選擇問題實際上就是博弈論的本質所在。
囚徒困境:坦白還是抵賴?
囚徒困境最早是由美國普林斯頓大學數學家塔克于1950年提出來的。他當時編纂了一個故事,意在向斯坦福大學的心理學家們解釋什么是博弈論。后來經過發展,囚徒困境成為了博弈論中最著名的案例之一。
所謂囚徒困境,大意是這個樣子的。
有一天,某富翁在家中被殺,財物被竊。警方在偵破此案的過程中,抓到了湯姆、杰克兩個犯罪嫌疑人,并從他們的住處搜出了被害富翁家中丟失的財物。面對呈現在眼前的物證,他們承認了自己的偷竊行為,但卻矢口否認殺害富翁,辯稱是先發現富翁被殺,然后他倆只是順手牽羊偷了點兒東西。
針對兩人的狡辯,警方對他們進行了隔離審訊。為了分化瓦解他們,檢察官分別對兩人說了以下一段話:
本來你們的偷盜罪證據確鑿,可以就此判你們1年刑期。但是,按照將功贖罪制度,如果你主動坦白并且揭發同伙的殺人罪行,我們將對你進行從寬發落,判你無罪釋放,但你的同伙要被判30年刑期;如果你頑抗到底,拒不坦白,而被同伙檢舉出你的殺人行為,那么你就要受到嚴懲,將被判刑30年,你的同伙將被無罪釋放;當然,如果你們兩人都坦白,那么你們都將只被判15年刑期。
在這里,博弈的決策主體——湯姆和杰克各有兩個選擇,即坦白和抵賴。
這兩個嫌疑犯該怎么辦呢?他們面臨著兩難的選擇——坦白還是抵賴。顯然最好的選擇是兩人都選擇抵賴,都得到最好的結果——只判刑1年(殺人罪按照疑罪從無原則,證據不足無法成立,只能以偷盜罪各判每人1年刑期)。但是由于兩人處于隔離的情況下,沒有串供的條件,所以他們不得不仔細考慮對方可能采取什么策略,以及對方采取的策略對自己有什么影響。
心理較量就這樣開始了,湯姆和杰克都是絕對精明的人,都只在乎減少自己的刑期,并不關心自己的選擇會對對方產生什么影響,對方因為自己的決策又將被判多少年刑期。
湯姆會這樣推理:假如杰克選擇抵賴的話,我只要坦白,馬上就可以無罪釋放,獲得自由,而我若抵賴則要坐牢1年,顯然坦白比抵賴要劃算得多;假如杰克選擇坦白的話,我若抵賴,則要坐30年牢,坦白卻只坐15年牢,顯然還是坦白為上策。所以說,無論杰克選擇抵賴還是坦白,我的最佳選擇都是坦白,還是坦白交代了吧。
同樣,杰克也跟湯姆一樣會算計,也會如此推理。
囚徒困境之所以稱為困境,就是因為這局博弈的最終結果對兩個參與者來說都是最壞的,兩個嫌疑犯雙雙選擇坦白,結果皆被判刑15年。這對他們個人來說都是從自身利益出發的最佳選擇,符合他們的個體理性選擇。因為坦白交代者可能會被無罪釋放,顯然比自己抵賴可能會獨自承受30年刑期要好。而原本對雙方都有利的策略——兩個人都抵賴,每人被判1年刑期就不會出現。
囚徒困境是典型的非合作博弈的范例,為我們探討合作是怎樣形成的提供了極為形象的解說方式,其產生不良后果的原因是兩個嫌疑犯都從利己目的出發,最終導致損人不利己,合作沒有產生。反過來我們就可看到:彼此達成合作是最好的利己策略,但合作必須符合以下黃金定律:“己所不欲,勿施于人。”在此基礎之上的合作才能形成一個和諧的、良好的社會環境。
在囚徒困境中,最好的策略直接取決于對方所采用的策略,取決于對方所采取的策略為發展雙方合作留出多大的余地。獨立于對方所用策略之外的、從利己目的出發的、最好的決策是不存在的。
實際上,囚徒困境是現實生活中許多現象的一個抽象概括,有著廣泛而深刻的意義。同一行業不同企業之間激烈的價格競爭就是囚徒困境的典型現象。在價格博弈中,只要雙方都以對方為敵手,只關心自己的利益,那么不管對方采取怎樣的決策,自己采取低價策略總會占便宜,就如同囚徒困境中的犯罪嫌疑人始終認為自己坦白為最佳決策一樣,這就促使雙方都采取低價策略。如可口可樂公司和百事可樂公司之間的價格競爭、各大航空公司之間的價格戰等等。
如果雙方進行合作,共同制定比較高的價格,就可以避免無休止的價格大戰并獲得較高的利潤。但是這些企業往往處于利益驅動的囚徒困境之中,雙贏也就成了泡影。不同企業之間五花八門的價格聯盟總是非常短命,原因也就在這里。
合作,有時是利益需要
農村某地有一個只有上官、歐陽兩戶人家的小居民點。由于地處偏僻,交通不便,兩戶人家與外界的交流十分困難,急需修一條通向外界的公路。假設修這條路的成本為4個單位,每戶人家從修好的這條路上獲得的好處為3個單位。如果沒有中間人協調,上官、歐陽兩家就各自打著自己的小算盤:
若兩家共同出錢聯合修路,每家平均分攤修路成本2個單位,則每戶人家獲得的好處為1(3-2=1)個單位。當只有一戶人家出錢修路而另一家坐享其成時,修路的那戶人家付出4個單位的成本,卻只得到3個單位的好處,獲得的純盈利為-1(3-4=-1)個單位,也就是得不償失,倒貼1個單位,結果是虧損的;而坐享其成的一家卻可以使用修好的公路(修路人并不擁有道路的占有權,總不能因為修了路就不讓鄰居走),白白獲得3(3-0=3)個單位的好處;如果上官、歐陽兩家都不修路,兩家的純盈利皆為0。歸納起來,是否修路的得失情況如圖所示:

對上官家來說,若歐陽家修路,我家也修路,會獲得1個單位的好處,而我家不修路,則會獲得3個單位的好處,顯然修路是劣勢策略;若歐陽家不修路,我家修路,則凈虧損1個單位,而我家不修路,則不贏也不虧,修路還是劣勢策略。因而上官家決定不出錢修路。同理,歐陽家也會選擇不修路。最終修路博弈的結局將是:兩家都不動手,大家都得零。這就應了英國歷史學家麥考萊的一句話:“大家的事情反而無人管。”
一般情況下,若上官只有歐陽一家鄰居,歐陽也只有上官一家鄰居,他們兩家多半會互幫互助,好好商量修路的問題,合力把路修好,大家都得到方便。但是如果出現極端情形,如兩家有仇,那就另當別論了。但是,這兩種情形都不在博弈論討論的范圍之內。如果不附加說明,博弈論討論所牽涉的參與者,都是經濟學上的理性人:他們并沒有私人恩怨,也不是世代友好,而只是具有自私本性但并不刻意損害他人利益的人類一員。
公共品和私人品的性質不一樣。私人品是純屬私有私用,別人很難占到什么便宜。但公共品就不一樣了,不管由誰提供出來,大家都可以共享。典型的如公園里的長椅,只要有人出錢出力設置好了,所有行人都可以坐下休息,哪怕他沒有為此做出絲毫貢獻。那么,這長椅由誰來設置呢?恩惠于大家的公共事情又由誰來管呢?
這就是公共品供給的囚徒困境:如果大家都只考慮到自己的得失,只打自己的“小九九”,結果是誰也不付出,得過且過,也就排除了合作雙贏的前景。所以,公共品問題一定要有人協調和管理,大家的事情要有專人進行協調管理。其實,這就是政府的主要職能之一。對于一個國家來說,最重要的公共品是國防公安、基礎設施、科教文衛等。政府責無旁貸地要用來自納稅人的錢,把科教文衛、基礎設施和國防公安等屬于大家的事情做好。
在修路博弈中,為了解決這條通往外界公路的修建問題,需要政府牽頭,強制性地分別向上官、歐陽兩家各征稅2個單位,然后投入4個單位的成本修建好這條能給兩家都帶來好處的公路。有句俗語不是說嘛“要想富,先修路。”路修好了,就可以使兩戶居民的生活水平在一定程度上得到改善。通常也只有政府出面,大家才能走出誰都不愿意去修建公共設施的囚徒困境。當然了,羊毛出在羊身上,公民稅收是必不可少的,因此大家都要自覺承擔納稅的義務。
非合作博弈:人類自私自利的本性
“選A還是選B”這個問題不僅讓富有實戰經驗的商人們苦惱不堪,也同樣折磨著商學院的天之驕子們。一位教授讓自己班上的27名學生進行一個博弈游戲,這個博弈會把所有學生帶入囚徒困境之中。
游戲規則如下:
假設每一個學生都是一家企業的老板,現在他必須決定自己選擇A——代表著生產高質量的商品來維持較高價格,還是選擇B——代表著生產假貨以通過別人所失來換取自己所得。學生選擇A可獎勵2元,選擇B可獎勵2.15元。但選擇A將產生總體收益:1個學生選擇A,總體收益為2元;2個學生選擇A,總體收益是4(2×2=4)元,依此類推……選擇B將無總體收益可言。同時,將選擇A的學生所產生的總體收益平均分給這27個學生。
這是教授事先設計好的一個博弈,以確保每個選擇B的學生總比選擇A的學生多得0.15元。這個假定也有其現實意義,因為生產質次的假貨所付出的成本總比生產高質量的商品要低,反過來,其利潤當然要高。
但是,選擇B的人數越多,就意味著選擇A的人數越少,則他們的總體收益就會越少,總體收益越少,平均分到每個人手中的收益就越少。這個假設也有道理,隨著市場上充斥著的假貨的增多,消費者便會逐漸地認清它們的面目,就會理性地不再購買它們,這就直接導致了假貨生產者(游戲中指選擇B的學生)利潤的減少。而且,市場上出現的假貨太多,市場秩序就會混亂,該產品的信譽就會降低,這也直接損害了高質量產品生產者(游戲中指選擇A的學生)的利益。
假設27名學生都選擇A,那么他們每人各得2元,且總體收益是54(2×27=54)元,將54元平均分配給27個學生,也是每人2(54÷27=2)元,則每個學生最后的實際所得為4(2+2=4)元。
假設有1個學生有了自私自利的打算,偷偷改變主意,選擇B。那么,選擇A的學生就有26名,每人各得2元,總體收益是52元(2×26=52),將52元平均分配給全班27個學生,每人各分得1.9(52÷27≈1.9)元,則選擇A的學生最后的實際所得為3.9(2+1.9=3.9)元,比原來少得0.1元;而選擇B的那個學生最后可得4.05(2.15+1.9=4.05)元,比原來多了0.05元。
假設有2個學生改變主意,改選B,則有25名學生選擇A,每人各得2元,總體收益是50(2×25=50)元,將50元平均分配給27個學生,每人可分得1.85(50÷27≈1.85)元,則選擇A的25名學生最后每人各得3.85(2+1.85=3.85)元;而選擇B的那2個學生最后每人各得4(2.15+1.85=4)元。
假設有3個學生改選B,那么,選擇A的學生就有24名,每人各得2元,總體收益是48(2×24=48)元,將48元平均分配給全班27個學生,每人可分得1.78(48÷27≈1.78)元,則選擇A的學生每人各得3.78(2+1.78=3.78)元;而選擇B的3個學生每人各得3.93(2.15+1.78=3.93)元。
……
假設全班27個學生為了盡可能地使自己的收益達到最大,一致選擇自私的策略,統統選擇B,則總體收益是0元,最后每個學生各得2.15元。
由以上分析可以看出,當只有1個學生選擇B的時候,該學生能獲得最大收益4.05元,其余26名學生相對會蒙受一點損失,只能獲得3.9元。反過來,如果他們進行合作,協同行動,不惜將個人的收益減至最小,都選擇A,則每個人都能獲得最大收益4元。選擇B的學生人數越多,每個人的最后收益越少。
演練這個博弈的時候,起初每個學生都被相互隔離開,不允許討論,單獨做選擇。全班27名學生無疑都像囚徒困境中的嫌疑犯一樣,都是聰明絕頂的理性人,個個精于算計,為了多獲得0.05元,不約而同地都選擇了B。
后來教授允許學生之間相互討論,以便達成共識。結果同意合作而選擇A的學生總數從3人到14人不等。在最后一次帶有約束性協議的博弈里,只有4個學生愿意選擇A。此時,全體學生的總收益是65.45[2×4+2.15×(27-4)+2×4=65.45]元,比全體學生成功合作可以得到的總收益108(2×27+2×27=108)元減少了42.55(108-65.45=42.55)元。
這個游戲也可以看作是非合作博弈的又一典型模式,并且比囚徒困境更深刻地揭示了人自私自利的本性。這一模式說明了這樣一種情況——處于相同困境狀態下,各方都不知道別人的選擇,因而只能猜測每個人都是絕對的理性人,最后必將背叛其他人,從自己的利益出發,做出最有利于自己的選擇。
處于困境中的人們與困境之間是一種不可逆轉的關系,也就是說當他們無法通過自己的力量去左右局勢,獲得集體收益最大時,就只能在困境的局勢下想辦法盡可能讓自己的損失最小,收益最大。
這個游戲在現實社會中也極具代表性。比如,某村有一塊公共草地可供牧人放牧,每個牧民都清楚地知道增加自己養羊的數目,可以增加收入。但由于是共屬大家的草地,沒有人會去關心草地的承載極限,于是羊越來越多,草越來越少。最后草地空了,草沒了,羊也沒了。這是一個帶有悲劇性的博弈過程。當出現類似情況的時候,就需要有外界力量對其進行干預,制定相應規則,從而使草地得到最合理的利用,大家才能真正得到實惠。
績效考核的上下博弈
企業老板為促使員工之間互相競爭,努力工作,有時會故意在員工之間形成囚徒困境。為了形成這種激勵員工賣力工作的囚徒困境,老板可以采取這一策略:獎勵表現最好的員工,并淘汰未達工作標準的員工。假如員工都接受了這場博弈,那么他們就會兢兢業業地工作了。
假設某公司開發出一種新產品,并招聘了20個業務員來對它進行推銷,此時作為公司老板的你,要如何決定每個業務員的工作量呢?由于這種產品過去在市場上從來沒有出現過,所以你根本無法評估能干又勤奮的業務員每個月到底能賣多少產品。
解決的唯一辦法就是根據相對績效標準來評估每個業務員的表現,也就是拿他們的工作業績進行相互比較,給予銷售量高的業務員額外的獎勵。此時,相對績效評估標準將會使所有業務員陷入積極工作的囚徒困境之中。
以甲、乙兩個業務員之間的博弈為例,甲、乙都可以選擇每月工作20天或25天。雖然由于此項工作本身具有特殊性,跑外的業務員不比坐辦公室上班的員工,老板無法準確判斷業務員的實際工作時間,但是他們也不是全然就沒有了管束,老板可以根據每月月底各個業務員的銷售業績,對他們這個月的工作狀況進行逐一考核。一般情況下,每月工作25天的業務員推銷出的產品會比每月工作20天的業務員要多。
對公司而言,只要兩個業務員的工作時間一樣,就會得到相同的評價。在這種情況下,兩個業務員若要得到相同的評價,很可能會選擇集體偷懶。因為每個人都偷懶時,大家的表現就會不相上下,顯然會選擇每月工作20天,而不會選擇每月工作25天。當然,兩個業務員都會失去成為業務精英的機會,但放棄這個機會而換取舒適的工作環境,也許是很值得的。
不過,老板針對此種情況而設計的囚徒困境卻迫使他們不得不延長工作時間。假如甲每月工作20天,乙工作25天,乙就會得到高等的評價,獲得獎勵;要是甲每月工作25天,但乙每月只工作20天,那么乙將會受到老板的批評,飯碗可能就保不住了。所以對甲、乙來說,每月工作25天是他們的最佳選擇。
雖然員工們都想輕松度日,在工作中偷懶,但當公司老板以相對評估標準來衡量員工工作業績時,囚徒困境的形成就使得某一員工很難說服別人一起偷懶。退一步想,假如員工互相串通,集體偷懶,相對標準所形成的囚徒困境遭到瓦解,老板要怎么做才能激勵員工努力工作呢?此時,就必須采取客觀的績效評估標準,把表現不佳的人毫不留情地開除。
簽訂合作協議:由婚姻想到的
嚴格的囚徒困境形成的前提條件是參與博弈的各方不可以進行合作,不能夠制定有約束力的合作協議。但是在實際生活中,合作是社會文明的基礎,這已得到先哲們的認可,哲學家盧梭不就寫了《社會契約論》一書嘛,他就認為契約是整個人類社會存在的前提條件。聯系實際生活,興修水利、組織國防、創建企業等不都是因合作而實現的嗎?
當然,我們現在所說的以簽訂協議的方式來走出囚徒困境是存在一定的限定條件的,即博弈必須重復若干次,至少多于一次。對于一次性博弈而言,簽訂協議是毫無意義的。
何謂重復博弈、一次性博弈?
以戀愛博弈為例,重復博弈是指男女雙方在長期交往的過程中,隨時都在進行著的博弈,因為相愛的過程中任何一個時點都是有可能分手的。無數愛情故事中的悲歡離合、起伏跌宕正是重復博弈的表現。而那種素不相識的男女,偶爾在酒吧中相遇,于是賓館訂房、玩樂一場,拂曉之后就分道揚鑣的一夜情,就是典型的一次性博弈。
實際上,在重復型的囚徒困境中,簽訂合作協議并不是很困難,困難的是合作協議達成之后,是否對博弈各方具有很強的約束力,能夠使得博弈參與者都不會有私自改變主意的行為。比如由愛情而引出的婚姻,俗話說“婚姻是愛情的墳墓”,但從博弈論的角度來看,婚姻恰恰是男女雙方簽訂的一種具有一定約束力的協議,一旦某一方背叛婚姻,他就會受到家庭的壓力與社會輿論的譴責。
現在,博弈論專家已經用數學知識證明,在無窮次重復博弈的情況下,合作是一種相對穩固的狀態。因為任何一次背叛都會導致對方在下一輪博弈中進行報復,而雙方都采取合作態度則會帶來合作收益,兩方都相安無事地處下去。
如何與對手達成合作?
在囚徒困境中,我們已經知道了這樣一個道理:從個體的眼光看,決策目標是在與對手的一系列對局中盡可能地使自己的利益最大化。這使得博弈參與者會受到背叛總體利益的短期誘惑,總是想贏對方,結果可能得不償失。因為對方也會全力反擊,招致雙方都難以全身而退,造成兩敗俱傷的局面。在這種情況下,即使雙方都沒有繼續對抗下去的意愿,但開弓沒有回頭箭,他們也只能咬緊牙關,硬著頭皮撐下去。但是與對方建立合作卻可以使雙方都得到更多的長期利益。
在陷入囚徒困境時應如何表現,才能盡可能地與對手達成合作呢?以下是對參與者的兩個簡單的建議:
◇不要嫉妒
在大多數博弈中,人們都習慣于考慮零和對局:一方贏,就預示著另一方必輸。然而生活中的大多數對局都是非零和的,不是此消彼長的關系,而是雙方都可以做得比較好或是比較差。雙方達成合作是極有可能的,只是并不一定都能實現而已。
人們在很多情況下都傾向于采用相對標準,把對方的成功與自己的成功對立起來,認為對方成功了自己就一定失敗。這種標準的直接后果就是會引發人的嫉妒,導致參與者企圖用自己選擇的策略抵消對方已經占有的優勢。
在囚徒困境的模式下,抵消對方優勢的唯一途徑就是背叛。如此便會進入一個惡性循環的怪圈,一次背叛會導致更多的背叛和雙方都受到懲罰的結局。可以說,嫉妒的出發點是自我保護,但其結果卻是自我毀滅。
在任何一局非零和的博弈中,你沒有必要非得比對方做得好。要求自己比對方做得好不是一個很好的目標,除非你想消滅對方。因為這個目標在大多數情況下是不可能或者說是很難實現的。尤其是當你要和許多不同的對手打交道時,就更不要去嫉妒對方的成功。因為在重復型囚徒困境中,其他人的成功是你成功的前提。
舉一個大家都比較熟悉的例子。一家商店從供應商那兒購買商品,嫉妒供應商的利潤是完全沒有必要的。任何由嫉妒而引起的企圖通過不按時付賬等不合作行為來減少供應商利潤的做法,都是對自己不利的魯莽舉動,都將激起供應商諸如拖延發貨、不愿意打折扣或者不提供市場變化信息等的報復行為。商店就會為自己的嫉妒心理付出極大的代價。
◇不要首先背叛,耍小聰明
博弈論專家通過辯證法分析指出:只要對方有意合作,你也積極配合,促成合作,就會有好處。對方是否有合作意愿的最好的表現就是對方的出發點是否善良,是否不首先背叛。
當博弈一方從一些不善良的出發點行事時,他往往會使用相當復雜的方法來試探自己的這個出發點能否逃脫對方的懲罰。比如嘗試在第一步背叛,如果第一步的結果顯示對方進行報復的話,就馬上撤回。或者是在背叛前等待十幾步,看對方能否被哄騙或偶爾被占便宜。如果能的話,那就更頻繁地、肆無忌憚地增加背叛的砝碼,直到受到對方的反擊再被迫撤回。
但需要指出的一點是,這些嘗試背叛的策略表現得都不怎么好。因為背叛策略的實施者沒有考慮自己的行為可能引起的對方的變化,事實上對方對你所采取的策略是有反應的,他將會把你的行為看作是你是否會同意合作的信號。你自己的行為會映射到你自己身上,自食其果,由此而導致的沖突的代價是很高的。
當然,你也可以嘗試一種比較保險的方式,即先背叛對方直到對方提出合作,才開始合作。然而,這是一個理論上較保險,而實際上很有風險的策略,因為你最初的背叛可能引起對方的報復,使你處于要么被占便宜,要么彼此背叛、兩敗俱傷的兩難境地。如你發現被對方報復了,再懲罰對方的報復,而對方再對你的懲罰進行報復……這種循環就會一直延續下去,后果可想而知。
有的參與者會耍一些小聰明,比如采取相當復雜的策略,以至于打亂對方的常規思維,讓對方摸不準自己的思路而陷入不知所措的困境。當然,對方也會采取一個隨機的策略,如果你給對方的感覺是無反應的,對方當然就猜不透你是如何想的,自然也感受不到來自你的促成合作的激勵,也就不會去積極地促成合作。策略復雜到不可理解時是非常危險的。
“一報還一報”策略
現在,人們對博弈論的研究非常廣泛,以至于有人形象地說:“最新的經濟學和管理學都已經用博弈論的理論和工具重新寫過了。”雖說有些夸張,但也絕非毫無根據,博弈論在現代生活中確實占了很大比重。博弈參與者有很多有趣且富于哲理的選擇策略,適用于重復博弈的“一報還一報”就是其中之一。
“一報還一報”策略大致是這樣的:它總是以合作開局,在第一步合作,但從此以后就采取“以其人之道,還治其人之身”的策略,采用對方上一步的選擇。也就是說,“一報還一報”意味著在對方每背叛一次之后,自己就背叛一次,而永遠不先背叛對方。
“一報還一報”是一種綜合了善意性、寬容性、報復性、適應性和清晰性的合作策略,無論對于個人還是組織,其行為方式都有很大的指導意義。總的來說,它比競賽中的其他策略都好。
◇“一報還一報”的善意性
“一報還一報”策略放棄了占他人便宜的可能性,永遠不先背叛對方,永遠不先把自己的利益建立在他人的損失之上。從這一特點來看,它是善意的。因為采用以占便宜為出發點的策略引發的問題是多種多樣的。
首先,如果一個參與者用背叛來試探是否可以占他人的便宜,那么他就得冒被那些可能被激怒的規則遵守者報復的風險;其次,雙方的報復一旦開始,就會陷入惡性循環之中,雙方都很難全身而退。而“一報還一報”的這種善意性可防止博弈參與者陷入不必要的麻煩之中。
“一報還一報”的善意性使得其實施者從來不會在游戲中比對方少得太多好處。事實上,他也不可能比對方多得好處。因為這個策略總是讓對方先背叛,這就注定了策略實施者的被背叛次數肯定比對方少或者和對方一樣。所以“一報還一報”不是讓實施者得到與對方一樣多的好處,就是比對方略少。
“一報還一報”之所以會獲得比其他任何策略更多的總體利益,就是因為它不是靠打擊對方取勝,而是引導對方做出對雙方都有好處的行為。
◇“一報還一報”的寬容性
“一報還一報”策略還給出了一個簡單但又很有力量的建議:無論對方的選擇是合作還是背叛,策略實施者都要給予回報。在下一輪博弈中對對手的前一次合作給予簡單的回報,哪怕以前這個對手曾經背叛過自己。并且“一報還一報”總是在對方每次背叛之后只報復一次,這點足以說明其具有寬容性。它的這種寬容性有助于重新恢復合作。
◇“一報還一報”的報復性
“一報還一報”策略的運用者會采取背叛的行動來懲罰對手前一次的背叛,從這個意義上來說它又是具有報復性的。“一報還一報”從不先背叛對方,但是不管過去的關系如何好,它總能被對方的一次背叛激怒,而迅速做出反應,給予相同程度的報復行為。它的這種報復性使對方試著背叛一次之后就不敢再背叛,增大了轉回合作的概率。
◇“一報還一報”的適應性
“一報還一報”能在眾多的策略中獨占鰲頭,比其他任何策略表現得都好,足以說明它是一個很具適應性的策略。它不僅可與最初的各種策略相處得很好,而且能與那些未來可能在群體中占較大份額的成功策略相處得很好。它只會在與其他成功的策略相互交流時繁榮起來,而決不會毀壞自己已經得到的進一步改善狀況的基礎。任何想占“一報還一報”便宜的策略最終將傷害自己,屈服于“一報還一報”。
◇“一報還一報”的清晰性
“一報還一報”在競賽中能夠取得成功的另一個重要原因是它具有很強的清晰性,極易被對方理解,從而引出長期合作。策略實施者讓對方清楚地意識到自己愿意合作是“一報還一報”成功的訣竅所在。當你選用“一報還一報”策略時,對方很容易理解你在干什么,接下來要干什么,是打算合作還是想要背叛,接著會根據你的反應而做出相應的回應。
在博弈過程中,你的任何一次背叛都容易被對方感受到,進而迫使對方采取一對一的報復。而你所做的任何一次促進合作的努力,對方也會在第一時間感受到。此時,對方能輕易地分析出應付你“一報還一報”的最好方式就是與你合作,互利互惠。當你遇到對方使用“一報還一報”策略時,也只有馬上和他合作才是你最佳的選擇,這樣你將可以在下一步博弈中得到合作。
“一報還一報”策略的偉大勝利,對人類和其他生物的合作行為的形成具有深遠意義。阿克塞爾羅德在《合作的進化》一書中指出:“‘一報還一報’策略能引發社會各個領域的合作,包括在最無指望的環境中的合作。”
舉個最明顯的例子,就是在第一次世界大戰中“自己活,也讓他人活”原則的產生。當時在前線的戰壕里,軍隊紀律規定自己的士兵不準亂開槍殺人,希望促使對方也這么做。結果證明,這個原則得到了很好的實行,給了當時陷入困境數月的雙方軍隊相互了解、相互適應的機會。
即使是“一報還一報”這種有效的破解囚徒困境的策略,也不是萬能的,也難免會產生兩敗俱傷的危險。
首先,當“一報還一報”策略重復使用的時候,就會使博弈雙方陷入循環報復的局面,致使任何一方都難以脫身;其次,由于“一報還一報”的核心是對對方的任何行為都要給予及時有效的回報,就是說當遭遇他人侵犯時也一定會“以牙還牙”,毫不妥協。
但須強調的一點是,這種策略的前提是“人不犯我,我不犯人”,這樣可大大降低博弈參與者相互傷害的概率。總的來說,“一報還一報”策略還是利大于弊,目前應該算是破解囚徒困境的理想策略。