モデルの次元
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/10/19 07:22 UTC 版)
P = { P θ : θ ∈ Θ } {\displaystyle {\mathcal {P}}=\{P_{\theta }:\theta \in \Theta \}} たる統計モデル ( S , P ) {\displaystyle (S,{\mathcal {P}})} を仮定する。 Θ {\displaystyle \Theta } が有限の次元を持つとき、モデルは「パラメトリックである」と言われる。自然数 k {\displaystyle k} を用いて、 Θ ⊆ R k {\displaystyle \Theta \subseteq \mathbb {R} ^{k}} と記載する。 R {\displaystyle \mathbb {R} } は実数を表すが、原則的には他の集合を用いてもよい。ここで、 k {\displaystyle k} はモデルの次元と呼ばれる。 データが単変量ガウス分布から生じると仮定すると、次のように仮定する。 P = { P μ , σ ( x ) ≡ 1 2 π σ exp ( − ( x − μ ) 2 2 σ 2 ) : μ ∈ R , σ > 0 } {\displaystyle {\mathcal {P}}=\left\{P_{\mu ,\sigma }(x)\equiv {\frac {1}{{\sqrt {2\pi }}\sigma }}\exp \left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right):\mu \in \mathbb {R} ,\sigma >0\right\}} この例では、次元 k {\displaystyle k} は2に等しい。 別の例として、データが点 ( x , y ) {\displaystyle (x,y)} で構成されて直線に沿って分布し、残差が独立同分布のガウス分布(平均ゼロ)に従うとする。こうすることで子供の身長の例で使用されたものと同じ統計モデルが得られる。統計モデルの次元は3で、直線の切片、直線の傾き、残差の分布の分散が含まれる。 形式的には θ ∈ Θ {\displaystyle \theta \in \Theta } は k {\displaystyle k} 次元の単一のパラメータだが、 k {\displaystyle k} 個の独立なパラメータと見做す場合もある。例えば、たとえば、単変量ガウス分布では、 θ {\displaystyle \theta } は形式的には次元 2 の単一のパラメーターだが、平均と標準偏差の2つのパラメータとみなす場合もある。 パラメータ集合 Θ {\displaystyle \Theta } が無限次元の場合、その統計モデルはノンパラメトリックである。有限次元と無限次元の両方のパラメータがある場合、その統計モデルはセミパラメトリックである。正式には、 k {\displaystyle k} が Θ {\displaystyle \Theta } の次元数、 n {\displaystyle n} が標本数であるとき、セミパラメトリックモデルでもノンパラメトリックモデルでも lim n → ∞ k = ∞ {\displaystyle \lim _{n\to \infty }k=\infty } である。また、 lim n → ∞ k / n = 0 {\displaystyle \lim _{n\to \infty }k/n=0} ならセミパラメトリックであり、そうでなければノンパラメトリックである。 パラメトリックモデルは、これまでで最も一般的に使用されている統計モデルである。セミパラメトリックモデルとノンパラメトリックモデルについて、デイヴィッドコックス卿は、「これらは一般的に、構造や分布形式の仮定が少ないが、通常は独立性に関する強い仮定を含む」と述べている。
※この「モデルの次元」の解説は、「統計モデル」の解説の一部です。
「モデルの次元」を含む「統計モデル」の記事については、「統計モデル」の概要を参照ください。
- モデルの次元のページへのリンク