統計的推測の正しさと汎化誤差
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/04/28 18:39 UTC 版)
「推計統計学」の記事における「統計的推測の正しさと汎化誤差」の解説
統計的推論では観測されたデータを基に真の分布 ptrue(x)を統計モデル pmodel(x|θ)で近似しようとする、言い換えれば2分布の誤差を最小化しようとする。観測されたデータ=「真の分布の部分集合」から真の分布全体の推測をした際の誤差という意味で、これは汎化誤差と呼ばれる。すなわち統計的推測の目的は汎化誤差を最小化する統計モデルの構築にある。 しかし実際の統計的推測をおこなう際には ptrue(x) が不明な場合が多い。ptrue(x) が明らかならばそもそも推論をおこなう必要がほぼないからである。つまり一般には汎化誤差は直接計算できない。汎化誤差が計算できないということは、統計モデルが正しいか否かには答えられない、ということである。 だからといって汎化誤差が無意味なわけではない。データ(標本)は真の分布 ptrue(x) からランダムサンプリングされる確率変数である。そして統計モデルは確率変数たるデータによって学習されるため、汎化誤差もまた確率変数である。確率変数であるということは統計的な性質を見出すことが可能である(分布など)。すなわち存在するデータで学習された統計モデルの汎化誤差は計算できないが、汎化誤差の振る舞いは研究することができる。これを利用し、 どのような分布 pmodel(X|θ)が どのようなデータ x を与えられたとき どのような推測法で θ ^ {\displaystyle {\hat {\theta }}} を得ると 汎化誤差がいかに振る舞うか(例: ガウス分布に十分な量のデータを与え最尤推定をおこなうと汎化誤差はxxxのようにふるまう)を知ることができる。この研究が進展すれば、観測された目の前のデータに基づいて学習された pmodel(x|θ)の正しさには答えられなくても、その統計的振る舞いを答えることができる。 例えば尤度に着目したとき、尤度を最大化すること(最尤推定)が汎化誤差の期待値を最小化するかは明らかではない。尤度の最大値ではなく、尤度の周辺平均値の最大値が汎化誤差期待値を最小化するかもしれない。汎化誤差の振る舞いを解析することで、この疑問に答えることができる。
※この「統計的推測の正しさと汎化誤差」の解説は、「推計統計学」の解説の一部です。
「統計的推測の正しさと汎化誤差」を含む「推計統計学」の記事については、「推計統計学」の概要を参照ください。
- 統計的推測の正しさと汎化誤差のページへのリンク