基本的理論
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/01/01 00:45 UTC 版)
最尤推定が解く基本的な問題は「パラメータ θ {\displaystyle \theta } が不明な確率分布 f D {\displaystyle f_{D}} に従う母集団から標本が得られたとき、データを良く説明する良い θ {\displaystyle \theta } は何か」である。 ある母集団が確率分布関数 f D {\displaystyle f_{D}} と母数 θ {\displaystyle \theta } で表される離散確率分布 D {\displaystyle D} を従うとする。そこから n {\displaystyle n} 個の標本 X 1 , X 2 , . . . X n {\displaystyle X_{1},X_{2},...X_{n}} を取り出すことを考えよう。すると分布関数から、観察されたデータ(標本)が得られる確率を次のように計算できる(離散分布はP=f): P ( x 1 , x 2 , … , x n ∣ θ ) = f D ( x 1 , … , x n ∣ θ ) {\displaystyle \mathbb {P} (x_{1},x_{2},\dots ,x_{n}\mid \theta )=f_{D}(x_{1},\dots ,x_{n}\mid \theta )} このとき、母集団分布 D {\displaystyle D} の形(確率分布 f D {\displaystyle f_{D}} )はわかっているが母数 θ {\displaystyle \theta } は不明な場合、どうしたら θ {\displaystyle \theta } を良く推定できるか?利用できる情報はこの母集団から得られた n {\displaystyle n} 個の標本 X 1 , X 2 , . . . X n {\displaystyle X_{1},X_{2},...X_{n}} である。 最尤法では 、 θ {\displaystyle \theta } を仮定したときに今回サンプリングされた標本が得られる確率に着目する。すなわち上記にある、母数 θ {\displaystyle \theta } で条件付けられた確率Pに着目する。異なる θ {\displaystyle \theta } ( θ a {\displaystyle \theta _{a}} と θ b {\displaystyle \theta _{b}} )を仮定して P θ a < P θ b {\displaystyle P_{\theta _{a}}<P_{\theta _{b}}} だった場合、これは何を意味するか? 例えばコイン振りの表確率 θ {\displaystyle \theta } を θ a = 0.01 {\displaystyle \theta _{a}=0.01} と θ b = 0.5 {\displaystyle \theta _{b}=0.5} と仮定し、実際の標本が(表・表・表・表・裏)となって P ( x ∣ θ = 0.01 ) = 0.000...9 {\displaystyle \mathbb {P} (x\mid \theta =0.01)=0.000...9} 、 P ( x ∣ θ = 0.5 ) = 0.03125 {\displaystyle \mathbb {P} (x\mid \theta =0.5)=0.03125} ( P θ a << P θ b {\displaystyle P_{\theta _{a}}<<P_{\theta _{b}}} )だった場合、これは何を意味するか? 直感的には「 θ b = 0.5 {\displaystyle \theta _{b}=0.5} の方がそれっぽい」と考えられる。すなわち2つの θ {\displaystyle \theta } を仮定したとき、片方ではほぼあり得ない現象が起きたことになり、もう片方ではまぁありうる確率の現象が起きたと考えられるので、より P ( x ∣ θ ) {\displaystyle \mathbb {P} (x\mid \theta )} が大きい方が尤もらしいと推定しているのである。もちろん奇跡的に稀な表が続いた( θ a = 0.01 {\displaystyle \theta _{a}=0.01} である)可能性もありうるが、より尤もらしいのはより起きやすい現象であろう、という論理が最尤推定の根底にある論理である(「起きやすい現象が起きた」と「起きづらい現象が起きた」なら前者と考えるのが合理的、という論理)。 このような論理に基づき、母数 θ {\displaystyle \theta } の一番尤もらしい値を探す( θ {\displaystyle \theta } のすべての可能な値の中から、観察された標本の尤度 P ( x ∣ θ ) {\displaystyle \mathbb {P} (x\mid \theta )} を最大にするものを探す)方法が最尤推定である。これは他の推定量を求める方法と対照的である。たとえば θ {\displaystyle \theta } の不偏推定量は、 θ {\displaystyle \theta } を過大評価することも過小評価することもないが、必ずしも一番尤もらしい値を与えるとは限らない。尤度関数を次のように定義する: L ( θ ) = f D ( x 1 , … , x n ∣ θ ) {\displaystyle L(\theta )=f_{D}(x_{1},\dots ,x_{n}\mid \theta )} この関数を母数 θ {\displaystyle \theta } のすべての可能な値から見て最大になるようにする。そのような値 θ ^ {\displaystyle {\hat {\theta }}} を母数 θ {\displaystyle \theta } に対する最尤推定量(さいゆうすいていりょう、maximum likelihood estimator、これもMLEと略す)という。最尤推定量は(適当な仮定の下では)しばしば尤度方程式(ゆうどほうていしき、likelihood equation) ∂ ∂ θ log L ( θ ) = 0 {\displaystyle {\frac {\partial }{\partial \theta }}\log L(\theta )=0} の解として求められる。
※この「基本的理論」の解説は、「最尤推定」の解説の一部です。
「基本的理論」を含む「最尤推定」の記事については、「最尤推定」の概要を参照ください。
- 基本的理論のページへのリンク