跳轉到內容

博弈論入門/囚徒困境

來自華夏公益教科書,開放的書籍,面向開放的世界

讓我們從一個遊戲開始,這個遊戲通常被稱為囚徒困境,是用來展示博弈論的經典例子。它通常透過這個故事來解釋,儘管實際的遊戲稱為囚徒困境 - 通常簡稱為PD,並不侷限於這種情況。它背後的基本動力學可以用來描述各種各樣的現象。

安迪和鮑勃兩個人在一次持械搶劫案後被捕。警方有足夠的證據可以指控兩人盜竊逃跑車輛,但沒有足夠的證據可以指控他們進行實際的持械搶劫。然而,如果警方能夠從兩人中任何一人那裡得到認罪,他們就可以想象到指控兩人進行持械搶劫。

警方將兩人分別關在兩個房間裡,並向他們分別提出了同樣的提議

如果安迪認罪,而鮑勃保持沉默,那麼安迪就會逍遙法外,而鮑勃將被指控搶劫並被判處 10 年監禁。當然,這反過來也一樣。如果鮑勃認罪,而安迪保持沉默,安迪將被判處 10 年。
如果安迪認罪,鮑勃也認罪,那麼他們兩人都將被判處 7 年監禁。
如果安迪和鮑勃都保持沉默,那麼他們兩人都將被判處 2 年監禁,以負責逃跑車輛的搶劫罪。

這兩個囚犯只能在沒有任何聯絡方式的情況下做出決定。問題是:他們每個人都選擇了什麼

解決方案

[編輯 | 編輯原始碼]

每次玩這個遊戲都會出現的結果(假設每個人都為了自己的最佳利益行事)是,安迪和鮑勃都會選擇認罪,導致他們每個人被判處 7 年。這個答案似乎是違反直覺的,不是嗎?為什麼兩個玩家都會選擇認罪,這顯然比他們都保持沉默並被判處 2 年要糟糕?不僅如此,就總的監禁年限而言,這是最糟糕的結果!

兩個玩家都選擇認罪的原因很容易解釋。讓我們談談 A 人(對於安迪成立的,對於鮑勃也同樣成立,因為他們處於相同的境地)。

以下解釋假設安迪和鮑勃不能直接或間接地相互傳達他們的選擇。

安迪有以下矩陣

如果他認罪

最短監禁時間:0 年(如果鮑勃保持沉默)
最長監禁時間:7 年(如果鮑勃認罪)

如果他保持沉默

最短監禁時間:2 年(如果鮑勃保持沉默)
最長監禁時間:10 年(如果鮑勃認罪)


表格格式
鮑勃保持沉默 鮑勃認罪
安迪認罪 0 7
安迪保持沉默 2 10

該遊戲的預期收益(策略將提供的平均收益量)更好 - 在這種情況下,認罪的預期監禁時間為 3.5 年,而保持沉默的預期監禁時間為 6 年 - 如果安迪認罪。因此,從理性的角度來看,安迪應該選擇認罪而不是保持沉默。

此外,鮑勃的行為無關緊要 - 安迪認罪總是對自己有利。如果鮑勃認罪,安迪可以得到認罪的 7 年或保持沉默的 10 年,而如果鮑勃保持沉默,安迪可以得到認罪的 0 年或保持沉默的 2 年。不幸的是,對於 A 人來說,這對於 B 人也同樣成立 - 他認罪總是對自己有利。這意味著如果兩個主體都做對自己有利的事,他們將在監獄裡一起呆 7 年!這表明在許多遊戲中,“最佳”解決方案 - 結果總效用最高的那個 - 並不是最終會出現的那個。

策略性遊戲 · 矩陣表示法

華夏公益教科書