無期限繰り返しゲーム
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/12/09 14:11 UTC 版)
「囚人のジレンマ」の記事における「無期限繰り返しゲーム」の解説
2人の囚人がゲームの繰り返し回数を知らない場合は無期限繰り返しゲームと呼ばれる。有限繰り返しゲームにおいては、最終回のゲームから順に後退帰納法を適用することで全てのゲームで裏切りを選択するのが均衡となることを導いた。しかし,無期限繰り返しゲームではゲームが終了する確定的な期限がないので後退帰納法を適用できず、協調の可能性が生まれる。 このことを説明するため、以下の利得表で表される囚人のジレンマゲームを考える。なお以下では,数学的な説明のために「囚人」を「プレーヤー」という言葉で置き換える。この表は2人のプレーヤー p a {\displaystyle p_{a}} と p b {\displaystyle p_{b}} が「協調」か「裏切り」かの戦略を選ぶときの、1回ごとの利得を示す。並んだ数字の左側は p a {\displaystyle p_{a}} の利得、右側は p b {\displaystyle p_{b}} の利得である。なお、「利得」とは得られる利益を意味し、多い方がよい。 p a ∖ p b {\displaystyle p_{a}\backslash p_{b}} 協調 裏切り 協調 2 ∖ 2 {\displaystyle 2\backslash 2} 0 ∖ 3 {\displaystyle 0\backslash 3} 裏切り 3 ∖ 0 {\displaystyle 3\backslash 0} 1 ∖ 1 {\displaystyle 1\backslash 1} そして次のトリガー戦略(英語版)を考える。 はじめは協調を選択し、相手が一度でも裏切ったらそれ以降は裏切りをとりつづけ、そうでなければ協調する。 お互いにトリガー戦略をとっているときに自分がこの戦略から逸脱するインセンティブがなければ、トリガー戦略がナッシュ均衡になることが示される。 最も簡単なケースは、プレーヤーが将来を割り引かず、常に明日のことを今日と同じぐらい大事に思う場合である。ゲームを無限に何度も繰り返すものとして、各プレイヤーが無限回の利得を平均した平均利得を最大化すると想定しよう。互いにトリガー戦略をとると互いに協調しつづけることになるので毎回の利得は2であり平均利得も2である。一方、自分がトリガー戦略から逸脱して裏切った場合、裏切った回は3の利得を手に入れるがその後は相手も裏切るので自分の利得はせいぜい1にしかならない。1回だけ利得3でその後ずっと毎回利得1なので平均利得は1になるが、これはトリガー戦略の平均利得2を下回る。つまりプレイヤーはトリガー戦略から逸脱すると長い目でみて損をする。したがって互いにトリガー戦略から逸脱せず協調しつづけるのがナッシュ均衡になる。これにより協調が生まれる可能性が示される。 ナッシュ均衡を生み出す戦略はトリガー戦略のみに限らない。たとえば最初は協調し以降は前回相手の出した手をそのまま出すしっぺ返し戦略も、逸脱するインセンティブがないので均衡となる。このほか協調を実現する均衡は無数に存在する。また、互いに裏切り続けるのも均衡として残る。このように無数の均衡が存在することはフォーク定理で示される。
※この「無期限繰り返しゲーム」の解説は、「囚人のジレンマ」の解説の一部です。
「無期限繰り返しゲーム」を含む「囚人のジレンマ」の記事については、「囚人のジレンマ」の概要を参照ください。
- 無期限繰り返しゲームのページへのリンク