Page 9 - Science Focus (issue20)
P. 9
人類總是令人失望。無論是做分組作業還是解決全球 博 弈 論 中 的 遊 戲 有 著 一 個 均 衡 點(equilibrium 跟你「合作」;如果朋友採用的策略也是重複對方上回合選 結了雙方走不同路線下美軍可以進行襲擊的日數:
暖化問題,我們心裡雖然知道要跟別人合作才能做好一件 point),又名納 許均衡(Nashequilibrium;註一):那 擇的話,你們倆就能一直「合作」,實現遊戲中最理想的結局。
事情,但是最後總是會為了一己私利,令最理想的情況無法 發生在兩名玩家都對遊戲結果感到滿意,而不會改變他們 可以進行襲擊的日數 日軍:北航道 日軍:南航道
出現。可是為什麼人類會這樣做呢?數學中的博弈論也許 策略的時候[1]。在這情況下,遊戲已經自然而然地達到 然而,這情境未免過份理想化;畢竟在現實世界中,人總 2天 2天
能解答你的問題。 了最適的(optimal)結果,這結果也稱為這局遊戲的價值 會犯錯。假設你繼續使用能令你致勝的策略(即是重複對方 美軍:北航道
上回合的選擇),但對方不時會因為不小心搞錯而在某些回
(gamevalue)。所以在囚犯困境裡的確存在著一個「最
要介紹博弈論,就讓我們先來看看一個只有一回合的 好」的解決方法,也就是說,這遊戲的優勢策略(dominant 合作出錯誤的選擇,那你仍能勝出遊戲嗎?現在讓我們回到 美軍:南航道 1天 3天
的遊戲。假設你是一名囚犯,獄警為了取得情報,不斷引誘 strategy)是「背叛」;可是,它並不會帶來最好的結果。 模擬器,如果遊戲中普遍都是不太靠譜的對手,他們有百分
你告發另一個同樣被關在獄中的朋友。如果你和朋友都保 之五的機會會在每回合犯錯,而一半人的策略是只會背叛對 根據以上列表,我們知道日軍會採取北航道,以儘量減
持緘默,他們就不會有足夠證據,你和朋友都只會面臨一年 但是在現實生活中,我們每天都需要作出不同的決定。 手,其他人則採取其他不同策略的話,那麼你的致勝策略將 少受襲的日數(註三);另一方面,對美軍而言兩條航道都沒
刑期;只要你們其中一個招供,對方就得面臨三年刑期,而 如果「遊戲」不止得一局,將會發生什麼情況?可以告訴你 會是:在被對手連續兩次背叛後選擇「只會背叛」。可是隨 有一條有特別優勢,因此如果純粹考慮上述推論,在日軍可
告密者則會被釋放;如果你們互相吿發對方,你們都會被 的是,當「遊戲」多於一回合時,不停地背叛對手未必是「遊 著對手犯錯的機率提升,殘酷的現實是,最後的贏家將會是 能會走北航道的情況下,同樣選擇北航道是較明智的選擇。
監禁兩年。壞消息是:在獄中,你無法和朋友商量決定。 戲」的優勢策略,而我們有著不少新的策略,譬如在不同回 永遠背叛對手的玩家。如果你細心想想,這個故事暗示了現 現實上,兩軍也的確走了北航道,盟軍對日軍進行了兩天的
這時候,你會怎樣做呢? 合中隨機選擇「合作」和「背叛」,或者重複朋友上一回合 實世界上溝通的重要性,溝通最好是清晰準確的;少許誤會 持續空襲,成功阻止了日軍佔領新畿內亞。這就是博弈論的
的選擇;你可以選擇純策略(根據一個預先制定的計劃行 也許會得到原諒,但重重的誤解卻會引起人與人之間廣泛 精彩之處:它不只是數字上的分析,而是能應用至歷史或生
這就是著名的囚犯困境(prisoner’sdilemma):如 事)或混合策略(涉及利用機率去選擇策略)[2]。為了方便 的猜疑[3]。
果你一味只顧保護自己利益,最好的結局將不會發生。任何 解說,我們可以把上面的遊戲重整一下,將刑期變成一場賭 物學的層面。
渴望得到自由的人都會選擇背棄朋友,因為如果朋友沒有 博分數的遊戲—因為胡亂調整刑期有點奇怪,而且我們現 看到這裡,你可能認為現實生活根本和這些遊戲沒有關 你可能會問,在這樣的情況下,我們應該怎樣是好?事
告發你而你告發他,你將會馬上得到自由;如果朋友告發你 在能夠扣減分數。 係—我們不會每天被拷問,也不需要每天押下賭注—但 實上,我們在現實生活中面對的往往都不是零和遊戲,雖
的話,那你更應該要告發他,因為至少你可以早一年出獄。 博弈論厲害的地方是它能夠跨越數學和社會科學,不少理 然不少人的認知仍然停留在零和遊戲的層面上[3],但是
然而,這遊戲最理想的情況是你們都保持緘默,然後大家 朋友:合作(付出:1) 朋友:背叛(付出:0) 論學者嘗試過利用博弈論分析歷史上的重大決定。值得關 你的快樂的確不需要建構在別人的痛苦上,因為事情總有
在一年後重獲自由。你擔心朋友會出賣你的這份恐懼(又或 注的例子當然有第二次世界大戰,因為在戰爭中,往往不是 著雙贏的辦法。這可能聽起來像陳腔濫調:我們應該去尋
是你打從心底對自由的渴望)會驅使你背叛你親愛的朋友。 你:合作 你:+2 你:-1 你死就是我亡,交戰雙方沒有折衷的餘地,因此戰爭是教科 找能達致雙贏的辦法,事情往往有協商的餘地,你也不用
(付出:1) 朋友:+2 朋友:+3 書中典型分析均衡點的例子。我們通常稱這種情形為零和 為了抬高自己而貶低別人。
朋友:合作 朋友:背叛 你:+3 你:0 遊戲(zero-sumgame),當中一方的得益將無可避免地造
你:背叛
你:1年刑期 你:3年刑期 (付出:0) 成對方的損失,這與文初提及的囚犯困境有所不同,因為現
你:合作 朋友:-1 朋友:0 在「合作」並不是一個選項。 1 納許均衡以數學家JohnNash(1928–2015)命名。JohnNash是一位對博
朋友:1年刑期 朋友:獲得自由 弈論和幾何學影響深遠的數學家,前者使他贏得1994年諾貝爾經濟學獎;電
你:獲得自由 你:2年刑期 如果你不想自己著手計算的話,我們可以將這個情境輸 在二戰中的俾斯麥海海戰,一位日本上將被迫選擇北邊 影《有你終生美麗》中的主角亦是以他作為藍本。
你:背叛 入電腦程式(註二),然後讓它運行數回合,看看會發生什 或南邊其中一條航道 [4]。美國上將 GeorgeKenney 嘗試 2 你可能會想自己親手操作一下模擬器,另外亦正是它啟發了本文的創作:
朋友:3年刑期 朋友:2年刑期 麼事情。我們會發現,這次遊戲的最終贏家採用的致勝策 預測日軍的路線,以便盟軍能對日本海軍進行更持續的轟 https://ncase.me/trust/
略是重複對方上一回合的選擇。古語有云:「己所不欲,勿 炸。簡單而言,日軍希望減少被轟炸的日數,而美軍則希望 3 從日軍的角度考慮,如果美軍選擇北航道的話,南北兩條航道都一樣危險;可
是如果美軍走南航道的話,日軍選擇北航道會比較安全。因此整體而言,走
施於人」—它似乎能簡潔地總結這場遊戲。如果你想贏 進行最持久的轟炸。兩條航道的航程均為三天,但美軍的攻 北航道對於日軍而言是上策。
的話,最好第一回合就選擇「合作」,因為你也希望朋友會 擊計劃受不同因素限制,例如北航道的低能見度等。下表總
References 參考資料:
[1] Pilkington, A. (2016). Optimal Mixed Strategy for Zero-Sum Games. Personal Collection
of A. Pilkington, University of Notre Dame, Notre Dame, IN, USA. Retrieved from
https://www3.nd.edu/~apilking/math10170/information/Lectures/16%20Optimal%20
Mixed%20Strategy.pdf
[2] Manea, M. (2016) Strategic-Form Games: Dominated Strategies, Rationalizability,
and Nash Equilibrium; Epistemic Foundations. Personal Collection of M. Manea,
Massachusetts Institute of Technology, Cambridge, MA, USA. Retrieved from https://
ocw.mit.edu/courses/economics/14-126-game-theory-spring-2016/lecture-notes/
MIT14_126S16_gametheory.pdf
[3] Case, N. (2017, July). The Evolution of Trust: Feetnotes. Retrieved from https://ncase.
me/trust/notes/
[4] Cornell University. (2016, September 16). Game Theory in World War 2. Retrieved from
https://blogs.cornell.edu/info2040/2016/09/16/game-theory-in-world-war-2/
7