傾向推定
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2023/03/19 06:57 UTC 版)
無作為データにおける傾向
実データにおける傾向を考える前に、無作為データにおける傾向を理解する必要がある。
無作為であることが分かっているデータ列(例えばサイコロを振った結果やコンピュータが生成したランダムな数列)があるとき、その傾向を求めるとゼロ傾向となることはほとんどない。しかし、その傾向が極めて小さいことは予測される。ある決まった程度のノイズを含む決まったサイズ(例えば100個)のデータ列があり、それを多数生成する(例えば10万組)と、その10万組のデータ列から傾向を計算することができ、傾向の分布があることを経験的に知ることになる(右図参照)。その分布は(完全にランダムなら)ゼロを中心とする正規分布となるだろう(中心極限定理)。以上の手順からある程度の統計的確かさ を設定することができる(95%が典型的だが、より正確には99%、より大まかなら 90%)。そして、% の傾向が含まれる範囲を指定する傾向値 を求めることができる。細かいことを言えば、分布は正と負の両方に広がっており、両方を対象と考える場合もあるし、一方だけを対象と考える場合もある。
以上のように多数回の試行によって経験的に経験の分布を計算することを示した。単純な場合(正規分布の無作為なノイズ)、傾向の分布は正確に求められる。
ここで、それまでのランダムデータ列とおおよそ同じ分散特性の新たなデータ列を考える。そのデータ列が実際に傾向を持つかどうかは分からないので、傾向 を計算し、それが より小さいと判明したとする。そこで、確からしさ の範囲でこのデータの傾向はランダムノイズと区別できないと言える。
しかし、 を選んだとき、残りの の部分がある傾向を持っていると(誤って)宣言する可能性があることに注意されたい。逆に本当に傾向を持つデータ列の残り部分は、傾向を持たないと宣言される可能性がある。
- 傾向推定のページへのリンク