正規性検定
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/04/16 09:12 UTC 版)
「68–95–99.7則」の記事における「正規性検定」の解説
“68–95–99.7 則” は、標本からその母集団が正規分布であるかの簡易的な評価をするためによく用いられる。また、母集団を正規分布と仮定した場合の外れ値の単純な検定や、母集団が正規分布かもしれないに[訳語疑問点]正規性検定としても使用される。 標本の変換するには[訳語疑問点]、平均(母集団の平均がわからない場合には推定する)・分散を計算し、標本の値から平均の値を引くことで残差を計算する。そして、残差を標準偏差で割ることで偏差値を得る(ただし偏差値はここに書いたとおり残差を標準偏差で割った値であり、平均値が50、標準偏差が10となるように標本変数を規格化したものではなく、どちらかというとスチューデント化残差に近い)。 外れ値の検定や正規性の検定に用いる場合、標準偏差とその範囲に存在するデータの割合を比較する。標本のスチューデント化残差を計算し、正規分布でのデータの割合の期待値と比較する。(標本のサイズが十分大きい場合を除き、極端なデータとされるため)3σ以上の残差を持つデータは外れ値とされることが多い。平均から3σ以上に多くのデータがある場合正規分布ではないと疑われやすい。また、この考え方は4σ以上離れている場合より顕著である。 より正確には、ポアソン分布を用いて与えられた大きさ以上の残差のデータ数を近似して計算できるが、1000点の標本に4σ以上の残差を持つデータがある場合、正規性に疑問を呈する。 例えば、6σのデータは約2億分の1の確率に相当する。事象が毎日発生する場合、このデータは140万年に一度しか生じないデータに対応する。つまり、とある日のデータで6σが観測され、その観測期間が100万年を大幅に下回る場合、正規分布は良いモデルを提供しない可能性が高いといえる。 ナシム・ニコラス・タレブは著書 The Black Swan の中で、ブラックマンデーが36σの事象に対応するリスクモデルの例を示している。そのようなイベントが発生すると、モデルに欠陥がある、つまり、正規分布によるモデル化は適切でないことが即座に示唆され、その後、確率的ボラティリティモデルなどのより洗練されたモデルで考慮する必要がある。このような議論では、まれな出来事をたったひとつ観測しただけでは、そのような事実はまれであるということに矛盾しないというギャンブラーの誤謬の問題を認識することが重要である[要出典]。まれな事象が生じることは、「まれな事象がまれである」という仮説、すなわち仮定されたモデルの妥当性を損なう。仮説の信頼性が徐々に失われる場合、このプロセスを適切にモデリングするには、仮説そのものの見直しだけでなく、事前確率を指定する必要がある場合もある。このため、統計的仮説検定は、起きやすい事象を確認することではなく、あまり効果を発揮せず、[訳語疑問点]疑わしい仮説(起きにくい事象)を反駁することによって、効果を発揮する。
※この「正規性検定」の解説は、「68–95–99.7則」の解説の一部です。
「正規性検定」を含む「68–95–99.7則」の記事については、「68–95–99.7則」の概要を参照ください。
- 正規性検定のページへのリンク