囚人のジレンマ・ゲームとは？わかりやすく解説

囚人のジレンマ（しゅうじんのジレンマ、英: prisoners' dilemma）とは、ゲーム理論におけるゲームの一つ。お互い協力する方が協力しないよりもよい結果になることが分かっていても、協力しない者が利益を得る状況では互いに協力しなくなる、というジレンマである^[1]。各個人が合理的に選択した結果（ナッシュ均衡）が社会全体にとって望ましい結果（パレート最適）にならないので、社会的ジレンマとも呼ばれる^[2]。

1950年に数学者のアルバート・タッカーが考案した^[3]。ランド研究所のメリル・フラッド（英語版）とメルビン・ドレシャー（英語版）の行った実験をもとに、タッカーがゲームの状況を囚人の黙秘や自白にたとえたため、この名がついている^[4]。

囚人のジレンマではゲームを無期限に繰り返すことで協力の可能性が生まれる（後述）。囚人のジレンマは、自己の利益を追求する個人の間でいかに協力が可能となるかという社会科学の基本問題であり、経済学、政治学、社会学、社会心理学、倫理学、哲学などの幅広い分野で研究されているほか、自然科学である生物学においても、生物の協力行動を説明するモデルとして活発に研究されている^[5]。

ゲームの基本

共同で犯罪を行ったと思われる2人の囚人A・Bを自白させるため、検事は囚人A・Bに次のような司法取引をもちかけた^[6]。

本来ならお前たちは懲役5年なんだが、もし2人とも黙秘したら、証拠不十分として減刑し、2人とも懲役2年だ。
もし片方だけが自白したら、そいつはその場で釈放してやろう（つまり懲役0年）。この場合黙秘してた方は懲役10年だ。
ただし、2人とも自白したら、判決どおり2人とも懲役5年だ。

このとき、「2人の囚人A・Bはそれぞれ黙秘すべきかそれとも自白すべきか」というのが問題である。なお2人の囚人A・Bは別室に隔離されており、相談することはできない状況に置かれているものとする。

2人の囚人A・Bの行動と懲役の関係を表（利得表と呼ばれる）にまとめると以下のようになる。表内の（○年, △年）は2人の囚人A・Bの懲役がそれぞれ○年、△年であることを意味する。たとえば表の右上の欄（10年,0年）とは，「Aが黙秘・Bが自白」を選択した場合、Aの懲役は10年、Bの懲役は0年であることを意味する。

	囚人B 黙秘	囚人B 自白
囚人A 黙秘	(2年, 2年)	(10年, 0年)
囚人A 自白	(0年, 10年)	(5年, 5年)

2人の囚人A・Bにとって、「互いに自白」して互いに5年の刑を受けるよりは「互いに黙秘」して互いに2年、合計で4年の刑を受ける方が得である。しかし、2人の囚人が「互いに黙秘」が全体の利益で得であると認識した上で2人の囚人A・Bがそれぞれ自分の利益のみを追求している限り、「互いに黙秘」という結果ではなく「互いに自白」という結果となってしまう。これがジレンマと言われる所以である。このようなジレンマが起こるのは以下の理由による。

まず囚人Aの立場では次のように考えるだろう。

囚人Bが「黙秘」を選んだ場合、自分（＝囚人A）の懲役は2年（「黙秘」を選んだ場合）か0年（「自白」を選んだ場合）だ。だから「自白」を選んで0年の懲役になる方が得だ。
囚人Bが「自白」を選んだ場合、自分（＝囚人A）の懲役は10年（「黙秘」を選んだ場合）か5年（「自白」を選んだ場合）だ。だからやはり「自白」を選んで5年の懲役になる方が得だ。

したがって、囚人Aにとっては，囚人Bがどのように行動するかにかかわらず自白することが最適な選択ということになる。これは囚人Bにとっても同じであるため、囚人Bも囚人Aと同じ考えによって自白することが最適な選択である。このような理由で2人の囚人A・Bは結果的に「互いに自白」という行動をとることとなる。

重要なのは、「囚人Bが自白してしまうのではないか」という懸念や恐怖から囚人Aは自白するわけではなく、囚人Bが黙秘しようが自白しようが囚人Aは合理的に自白する、という点である。

2人の囚人A・Bにとって「互いに黙秘」することがパレート最適であるにもかかわらず，2人の囚人A・Bがそれぞれ合理的に自白するという「互いに自白」という結果はナッシュ均衡ではあってもパレート最適ではない。

2人の囚人A・Bが「互いに黙秘」することを「協調」と言い換え，「どちらかが黙秘しているとして自分だけが自白して釈放してもらおう」とすることを「裏切り」と言い換えたとき，結果的に両者は「裏切り」を選択することとなる。

有限繰り返しゲーム

囚人のジレンマのゲームを一回しか行わない場合は上で説明したように両者が「裏切り」を選択するが、それに対しゲームを複数回行った場合（繰り返しゲーム）における2人の囚人の行動は、彼らがゲームの繰り返し回数を知っているか否かで異なる。

2人の囚人がゲームの繰り返し回数を知っている場合は有限繰り返しゲームと呼ばれ、この場合には2人の囚人が全てのゲームで「裏切り」を選択することが知られている^[7]。証明は、最終回のゲームから逆順に以下の帰納法を行うことで示せる（後退帰納法）。以下ゲームの繰り返し回数をn とする。

n 回目のゲームは最終回のゲームであるので、n 回目のゲームの結果が二者関係に与える影響を考慮する必要がない。よってn 回目のゲームの戦略はゲームを一回しかやらない場合の戦略と同様であり、囚人はともに「裏切り」を選択する。
n 回目のゲームでは双方とも必ず「裏切り」を選択するのだから、n-1 回目のゲームで自分が「協調」を選択しようが「裏切り」を選択しようがn 回目のゲームには影響しない。よってn-1 回目のゲームにもやはり駆け引き的要素は存在せず、このゲームでも2人の囚人はともに「裏切り」を選択する。
以下同様に考えることで、全てのゲームで2人の囚人がともに「裏切り」を選択することが分かる。

無期限繰り返しゲーム

2人の囚人がゲームの繰り返し回数を知らない場合は無期限繰り返しゲームと呼ばれる。有限繰り返しゲームにおいては、最終回のゲームから順に後退帰納法を適用することで全てのゲームで裏切りを選択するのが均衡となることを導いた。しかし，無期限繰り返しゲームではゲームが終了する確定的な期限がないので後退帰納法を適用できず、協調の可能性が生まれる。

このことを説明するため、以下の利得表で表される囚人のジレンマゲームを考える^[8]。なお以下では，数学的な説明のために「囚人」を「プレーヤー」という言葉で置き換える。この表は2人のプレーヤー $p_{a}$ カテゴリ

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

典拠管理データベース
全般	FAST
国立図書館	ドイツアメリカフランス BnF data スペインイスラエル
その他	IdRef 2 Yale LUX

囚人のジレンマ・ゲームとは？ わかりやすく解説