最大エントロピー原理の正当化
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2020/12/29 10:03 UTC 版)
「最大エントロピー原理」の記事における「最大エントロピー原理の正当化」の解説
確率変数 X がごく自然な方法で得られるという「思考実験」をするとその実験の帰結が最大エントロピー原理と一致する事を示す。この主張は1962年に Graham Wallis が E.T. Jaynes に示唆したことから導き出された(Jaynes, 2003)ものであり、基本的に統計力学においてマクスウェル分布を導出する際の手法と同一であるが、概念的な意味は異なる。 X を m 通りの値を取る確率変数とする(マクスウェル分布のシナリオではX の取りうる値は速度空間上の m 個の微小領域)。話を簡単にする為、以下、X の取りうる値が1,...,m である場合を考えるが、一般の場合も同様である。今X について、X の取りうる値が1,...,m である事と、 X が条件 I を満たす事のみを知っていて他には何も知らないとする。このとき、X がどのような分布に従うと考えるのが自然であろうか。これを考える為、以下の思考実験を行う。 N を十分大きな値とし、大きさ 1/N の微小な「確率のカケラ」をN 個用意し(マクスウェル分布のシナリオでは、各々のカケラは分子に対応する)、そして各々のカケラを x 軸上の 1,...,m のいずれかの場所の上においていく。全てのカケラを置き終わったら、各 i ∈ { 1 , … , m } {\displaystyle i\in \{1,\dotsc ,m\}} に対し、 n i = {\displaystyle n_{i}=\,} (i の上にあるカケラの数) {\displaystyle \,} p i = n i / N {\displaystyle p_{i}=n_{i}/N\,} とする。 p i {\displaystyle p_{i}} は Σ i p i = 1 {\displaystyle \Sigma {}_{i}p_{i}=1} を満たすので、 ( p 1 , … , p m ) {\displaystyle (p_{1},\dotsc ,p_{m})} を確率分布と見なす事ができる。 今我々が X について知っているのは、 X が条件 I を満たす事(と取りうる値が 1,...,m である事)だけである。また N は十分大きいので、以上の方法で作った分布 ( p 1 , … , p m ) {\displaystyle (p_{1},\dotsc ,p_{m})} はいかなる分布をも十分によく近似できる。従って、 X の従う確率分布が以下の方法で決められていると仮定するのは自然であろう: 前述の思考実験に従い、 p 1 , … , p m {\displaystyle p_{1},\dotsc ,p_{m}} を決める。ただし各カケラを 1,...,m のいずれの場所に置くのかは一様ランダムに決める。 分布 ( p 1 , … , p m ) {\displaystyle (p_{1},\dotsc ,p_{m})} が条件 I を満たせば、 Pr [ X = i ] = p i {\displaystyle \Pr[X=i]=p_{i}} とする。 そうでなければ、カケラを全て片付けて最初からやり直す。 以上の方法で分布を生成したときに「 X が分布 p {\displaystyle {\boldsymbol {p}}} に従う確率」を Pr [ p ∣ I ] {\displaystyle \Pr[{\boldsymbol {p}}\mid I]} とする。 以上の考察を踏まえると、 X は Pr [ p ∣ I ] {\displaystyle \Pr[{\boldsymbol {p}}\mid I]} が最大になる分布 p {\displaystyle {\boldsymbol {p}}} に従う と見なすのが自然である事が分かる。 明らかに p {\displaystyle {\boldsymbol {p}}} は(条件 I の付いた)多項分布に従うので、 Pr [ p ∣ I ] {\displaystyle \Pr[{\boldsymbol {p}}\mid I]} は W = N ! n 1 ! n 2 ! ⋯ n m ! {\displaystyle W={\frac {N!}{n_{1}!n_{2}!\dotsb n_{m}!}}} に比例する。 ただし p {\displaystyle {\boldsymbol {p}}} が条件 I を満たさない場合は Pr [ p | I ] = 0. {\displaystyle \Pr[{\boldsymbol {p}}|I]=0.\,} よって Pr [ p ∣ I ] {\displaystyle \Pr[{\boldsymbol {p}}\mid I]} は条件 I を満たす p {\displaystyle {\boldsymbol {p}}} により最大化される。 log {\displaystyle \log } の凸性より、 Pr [ p ∣ I ] {\displaystyle \Pr[{\boldsymbol {p}}\mid I]} を最大化するという事は 1 N log W {\displaystyle {\frac {1}{N}}\log W} を最大化するのと等価である。そこで最後に N → ∞ とすると以下が従う。 1 N log W = ( log N ! − ∑ i log n i ! ) / N ≈ (1) ( N log N − ∑ i n i log n i ) / N = (2) log N − ∑ i p i log N p i = (3) − ∑ i p i log p i = H ( p ) {\displaystyle {\begin{aligned}&{\frac {1}{N}}\log W=(\log N!-\sum _{i}\log n_{i}!)/N{\underset {\text{(1)}}{\approx }}(N\log N-\sum _{i}n_{i}\log n_{i})/N{\underset {\text{(2)}}{=}}\log N-\sum _{i}p_{i}\log Np_{i}{\underset {\text{(3)}}{=}}-\sum _{i}p_{i}\log p_{i}=H({\boldsymbol {p}})\end{aligned}}} ここで(1)、(2)、(3)はそれぞれスターリングの公式 n ! ≈ n n {\displaystyle n!\approx n^{n}} 、 p i = n i / N {\displaystyle p_{i}=n_{i}/N} 、 Σ i p i = 1 {\displaystyle \Sigma {}_{i}p_{i}=1} より。 よって以上の方法で X が従う最も自然な分布を選ぶという事は、最大エントロピー原理に従って X の従う分布を決める事を意味する。
※この「最大エントロピー原理の正当化」の解説は、「最大エントロピー原理」の解説の一部です。
「最大エントロピー原理の正当化」を含む「最大エントロピー原理」の記事については、「最大エントロピー原理」の概要を参照ください。
- 最大エントロピー原理の正当化のページへのリンク