P 値 p value
有意確率 p value
p値
p値
帰無仮説の有意性検定において、p値(ピーち、p-value[注 1])は、帰無仮説が正しいという仮定の下で、実際に観察された結果と少なくとも同じくらい極端な検定結果を得る確率である[2][3]。p値が非常に小さいことは、そのような極端な観測結果は帰無仮説の下では極めて起こりにくいことを意味する。多くの定量的な分野の学術出版物では、統計的検定の p値が一般的に報告されているにもかかわらず、p値の誤った解釈や p値の誤用が広く見られ、数学やメタサイエンスの主要な課題となっている[4][5]。2016年、アメリカ統計学会(ASA)は正式な声明を発表し、「p値は、研究対象となった仮説が正しい確率や、データが偶然だけで生じた確率を測定するものではない」と述べ、「p値、すなわち統計的有意性は、効果の大きさや結果の重要性を測定するものではない」または「モデルや仮説に関する証拠」ではないとした[6]。しかし、ASAのタスクフォースは2019年に、統計的有意性と再現性に関する声明を発表し、「p値および有意性検定は、適切に用いられ解釈された場合、データから導き出される結論の厳密性を高めることができる」と結論づけている[7]。
基本概念
統計学では、ある研究における観測データ
コインの公正性の検定
統計検定の一例として、コイン投げが公正か(表と裏が出る確率が等しい)、不正に偏っているか(どちらか一方の面が出る確率がより高い)を調べる実験が行われた。
実験ではコインを20回投げ、うち表が14回出た。全データ P値の算出は1700年代に遡り、人の出生時の性比を、男女間の出生確率が等しいという帰無仮説と比較した際の、統計的有意性を算出するために使用されていた[28]。ジョン・アーバスノットは1710年にこの問題について研究し、1629年から1710年までの82年間のロンドンの出生記録を調査した[29][30][31][32]。どの年も、ロンドンで生まれた男児の数は女児の数を上回っていた。男児と女児の出生が等しく起こると見なすと、観察された結果の確率は 1/282、つまり1/4,836,000,000,000,000,000,000,000である。これは現代の言葉で言う p値である。これは極めて小さな値であり、アーバスノットは、これを偶然ではなく神の摂理によるものだと結論づけ、「このことから、世界を支配するのは偶然ではなく、創造であるという結論が導き出される。」と述べた。現代的な言い方をすれば、彼は p = 1/282 の有意水準で、男児と女児の出生が同じ確率であるという帰無仮説を棄却した。アーバスノットのこの研究と他の研究は、「… 初めて有意差検定が用いられた…[33]」、「統計的有意性に関する推論の最初の例[34]」であり、「…おそらくノンパラメトリック検定の最初の公表された報告…[30]」として、特に符号検定の最初の報告として知られている。詳細は符号検定 § 歴史を参照のこと。
同じ疑問は後に、ピエール=シモン・ラプラスによって取り上げられ、ラプラスは代わりにパラメトリック検定(parametric test)を行い、二項分布に基づいて男性の出生数をモデル化した[35]。
p値は、カール・ピアソンが、カイ二乗分布を用いた「ピアソンのカイ二乗検定」で初めて正式に導入し、大文字の P で表記した[36]。現在では、カイ二乗分布の p値(さまざまな χ2 値と自由度)は P と表記され、Elderton (1902)で算出され、Pearson (1914:xxxi–xxxiii, 26–28, Table XII) にまとめられた。
ロナルド・フィッシャーは統計における p値の使い方を正式化し、普及させ[37][38]、この問題に対する彼の研究方法において中心的な役割を果たした[39]。フィッシャーは、影響力の大きな著書『Statistical Methods for Research Workers(研究者のための統計的方法)』(1925年)の中で、偶然に超えられる確率が20分の1となる水準 p = 0.05 を統計的有意性の限界として提案し、これを(両側検定として)正規分布に適用して、統計的有意性のための(正規分布における)2標準偏差のルールを生みだした[40][注 3][41]。(参照 68-95-99.7則)
さらに、Elderton の手法に似た数値表も算出したが、より重要なのは、χ2 と p の役割が逆転したことである。つまり、χ2(および自由度 n)のさまざまな値について p を計算するのではなく、特定の p値、具体的には 0.99、0.98、0.95、0.90、0.80、0.70、0.50、0.30、0.20、0.10、0.05、0.02、0.01 に対応する χ2 値を計算した[42]。これにより、χ2 の計算値をカットオフ値と比較できるようになり(p値自体を計算し、報告するのではなく)、そして p値(特に0.05、0.02、0.01)をカットオフ値とすることが推奨された。その後、Fisher & Yates (1938) により同様の表がまとめられ、この手法が定着した[41]。
実験の設計と解釈における p値の適用例として、フィッシャーは、次の著書『The Design of Experiments(実験計画法)』(1935年)で、p値の典型的な例として知られる「紅茶の違いのわかる婦人」の実験を紹介した[43]。
ある女性(ミュリエル・ブリストル)が、ミルクを先にカップに注いで紅茶を足す方法と、紅茶を先にカップに注いでミルクを足す方法との違いを味で区別できると主張するのを評価するため、8つのカップが順番に彼女に提示された。4杯は一方の方法で、4杯はもう一方の方法で用意され、彼女はそれぞれのカップにどのように紅茶が入れられたかを判断するように求められた(それぞれ4杯ずつあることは知っていた)。この場合、帰無仮説は「彼女に特別な能力はない」であり、検定方法はフィッシャーの正確確率検定で、p値は
- Free online p-values calculators for various specific tests (chi-square, Fisher's F-test, etc.).
- StatQuest: P-value pitfalls and power calculations - YouTube