博弈論入門/囚徒困境

讓我們從一個遊戲開始，這個遊戲通常被稱為囚徒困境，是用來展示博弈論的經典例子。它通常透過這個故事來解釋，儘管實際的遊戲稱為囚徒困境 - 通常簡稱為PD，並不侷限於這種情況。它背後的基本動力學可以用來描述各種各樣的現象。

故事

安迪和鮑勃兩個人在一次持械搶劫案後被捕。警方有足夠的證據可以指控兩人盜竊逃跑車輛，但沒有足夠的證據可以指控他們進行實際的持械搶劫。然而，如果警方能夠從兩人中任何一人那裡得到認罪，他們就可以想象到指控兩人進行持械搶劫。

警方將兩人分別關在兩個房間裡，並向他們分別提出了同樣的提議

如果安迪認罪，而鮑勃保持沉默，那麼安迪就會逍遙法外，而鮑勃將被指控搶劫並被判處 10 年監禁。當然，這反過來也一樣。如果鮑勃認罪，而安迪保持沉默，安迪將被判處 10 年。

如果安迪認罪，鮑勃也認罪，那麼他們兩人都將被判處 7 年監禁。

如果安迪和鮑勃都保持沉默，那麼他們兩人都將被判處 2 年監禁，以負責逃跑車輛的搶劫罪。

這兩個囚犯只能在沒有任何聯絡方式的情況下做出決定。問題是：他們每個人都選擇了什麼？

解決方案

每次玩這個遊戲都會出現的結果（假設每個人都為了自己的最佳利益行事）是，安迪和鮑勃都會選擇認罪，導致他們每個人被判處 7 年。這個答案似乎是違反直覺的，不是嗎？為什麼兩個玩家都會選擇認罪，這顯然比他們都保持沉默並被判處 2 年要糟糕？不僅如此，就總的監禁年限而言，這是最糟糕的結果！

解釋

兩個玩家都選擇認罪的原因很容易解釋。讓我們談談 A 人（對於安迪成立的，對於鮑勃也同樣成立，因為他們處於相同的境地）。

以下解釋假設安迪和鮑勃不能直接或間接地相互傳達他們的選擇。

安迪有以下矩陣

如果他認罪

最短監禁時間：0 年（如果鮑勃保持沉默）
最長監禁時間：7 年（如果鮑勃認罪）

如果他保持沉默

最短監禁時間：2 年（如果鮑勃保持沉默）
最長監禁時間：10 年（如果鮑勃認罪）

**表格格式**
	鮑勃保持沉默	鮑勃認罪
安迪認罪	0	7
安迪保持沉默	2	10

該遊戲的預期收益（策略將提供的平均收益量）更好 - 在這種情況下，認罪的預期監禁時間為 3.5 年，而保持沉默的預期監禁時間為 6 年 - 如果安迪認罪。因此，從理性的角度來看，安迪應該選擇認罪而不是保持沉默。

此外，鮑勃的行為無關緊要 - 安迪認罪總是對自己有利。如果鮑勃認罪，安迪可以得到認罪的 7 年或保持沉默的 10 年，而如果鮑勃保持沉默，安迪可以得到認罪的 0 年或保持沉默的 2 年。不幸的是，對於 A 人來說，這對於 B 人也同樣成立 - 他認罪總是對自己有利。這意味著如果兩個主體都做對自己有利的事，他們將在監獄裡一起呆 7 年！這表明在許多遊戲中，“最佳”解決方案 - 結果總效用最高的那個 - 並不是最終會出現的那個。

← 策略性遊戲 · 矩陣表示法 →