フィッシャーの正確確率検定(直接確率)
例題:
「表 1 のようなクロス集計表に基づき,“甘いものが好きか嫌いか”と“虫歯の有無”の間に関連があるか検定しなさい。」
虫歯 | ||||
---|---|---|---|---|
あり | なし | 合計 | ||
甘いもの | 好き | 13 | 4 | 17 |
嫌い | 6 | 14 | 20 | |
合計 | 19 | 18 | 37 |
R による解析:
> tbl3 <- matrix(c(13, 4, 6, 14), ncol=2, byrow=T) > tbl3 [,1] [,2] [1,] 13 4 [2,] 6 14 > # 両側検定 > fisher.test(tbl3) Fisher's Exact Test for Count Data data: tbl3 p-value = 0.008138 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 1.440142 43.843385 sample estimates: odds ratio 7.11257 > # 片側検定 > fisher.test(tbl3, alternative="g") Fisher's Exact Test for Count Data data: tbl3 p-value = 0.005855 alternative hypothesis: true odds ratio is greater than 1 95 percent confidence interval: 1.770426 Inf sample estimates: odds ratio 7.11257
フィッシャーの正確確率検定(直接確率)
例題:
「13 人の学生について,自動車運転免許を持っているかどうかを調査した結果が,表 5 のようにまとめられた。男女で免許保有率に差があるかどうか検定しなさい。」
あり | なし | 合計 | |
---|---|---|---|
男子 | 4 | 2 | 6 |
女子 | 1 | 6 | 7 |
合計 | 5 | 8 | 13 |
R による解析:
> tbl4 <- matrix(c(4, 2, 1, 6), ncol=2, byrow=T) > tbl4 [,1] [,2] [1,] 4 2 [2,] 1 6 > fisher.test(tbl4) Fisher's Exact Test for Count Data data: tbl4 p-value = 0.1026 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.5364938 682.2665965 sample estimates: odds ratio 9.47099
フィッシャーの正確確率検定(直接確率)
2 × 2 分割表において,4 つの桝目のいずれかの期待値が 5 以下のときには,「χ2 分布を利用する独立性の検定」は不適当である。そのような場合には本法により独立性の検定を行う。
例題:
「表 1 のようなクロス集計表に基づき,“甘いものが好きか嫌いか”と“虫歯の有無”の間に関連があるか検定しなさい。」
この問は,「甘いものが好きな群と嫌いな群で,虫歯の保有率に差があるか検定しなさい。」とも解釈できる。
虫歯 | ||||
---|---|---|---|---|
あり | なし | 合計 | ||
甘いもの | 好き | 13 | 4 | 17 |
嫌い | 6 | 14 | 20 | |
合計 | 19 | 18 | 37 |
検定手順:
- 前提
- 2 変数 A,B についての分割表を表 2 のように定義する。
2 群の比率の差の検定を行うと解釈する場合には要因 A(または要因 B)が群になる。
表 2.2 × 2 分割表 要因 B B1 B2 合計 要因 A A1 a b e A2 c d f 合計 g h n
- 周辺度数 e,f,g,h を固定した分割表は複数個考えられるが,観察された分割表が得られる確率は次式のようになる。
Pa = eCa × fCc / nCg = ( e! f! g! h! ) / ( n! a! b! c! d! )
これを,例題で説明しよう。
- まず,“甘いものが好き”な 17 人から 13 人を取り出す取り出し方は,
17C13 = 2380 通りある。
- 同様に,“甘いものが嫌い”な 20 人から 6 人を取り出す取り出し方は,
20C6 = 38760 通りある。
- “甘いものが好き”なのと“甘いものが嫌い”なのは“独立事象”なので,“甘いものが好き”な 17 人から 13 人,“甘いものが嫌い”な 20 人から 6 人を取り出す取り出し方は,
17C13 × 20C6 = 2380 × 38760 = 92248800 通りあることになる。
- ここで,全体の人数 37 人から 13 + 6 = 19 人を取り出す取り出し方は,
37C19 = 17672631900 通りある。
- したがって,表 1 のような 2 × 2 分割表の生起確率は,
Pa = 17C13 × 20C6 / 37C19 = 2380・38760 / 17672631900 = 0.00522
であると計算できる。
- まず,“甘いものが好き”な 17 人から 13 人を取り出す取り出し方は,
- 周辺度数を固定したとき,2 × 2 分割表の自由度は 1 であり,4 つの桝目のどれか 1 つを決めれば,残りの桝目は自動的に決る。
例題では,a をいろいろと変えることによって,表 3 のような分割表が得られる。
表 3.周辺度数を固定したときの 2 × 2 分割表 虫歯 あり なし 合計 甘いもの 好き 0 17 17 嫌い 19 1 20 合計 19 18 37 左下からの続き
:
:虫歯 あり なし 合計 甘いもの 好き 1 16 17 嫌い 18 2 20 合計 19 18 37 虫歯 あり なし 合計 甘いもの 好き 15 2 17 嫌い 4 16 20 合計 19 18 37 虫歯 あり なし 合計 甘いもの 好き 2 15 17 嫌い 17 3 20 合計 19 18 37 虫歯 あり なし 合計 甘いもの 好き 16 1 17 嫌い 3 17 20 合計 19 18 37 :
:
右上へ続く虫歯 あり なし 合計 甘いもの 好き 17 0 17 嫌い 2 18 20 合計 19 18 37
- 観察された 2 × 2 分割表の生起確率を Po とする。
例題では,Po = 0.005219867676 である。
- 表 3 のようなそれぞれの分割表が得られる確率 Pa を計算する。
また,2 要因の関連の強さの指標として,a d - b c を定義し,それぞれに対応したものを Sa,So とする。
例題では,これらをまとめると,表 4 のようになる。
表 4.分割表の生起確率 a b c d a d - b c 分割表の生起確率 累積確率 1 累積確率 2 0 17 19 1 -323 @ 0.000000001132 0.000000001132 1.000000000000 1 16 18 2 -286 @ 0.000000182768 0.000000183900 0.999999998868 2 15 17 3 -249 @ 0.000008772887 0.000008956787 0.999999816100 3 14 16 4 -212 @ 0.000186423846 0.000195380633 0.999991043213 4 13 15 5 -175 @ 0.002087947070 0.002283327703 0.999804619367 5 12 14 6 -138 0.013571655957 0.015854983660 0.997716672297 6 11 13 7 -101 0.054286623828 0.070141607487 0.984145016340 7 10 12 8 -64 0.138624771560 0.208766379047 0.929858392513 8 9 11 9 -27 0.231041285933 0.439807664981 0.791233620953 9 8 10 10 10 0.254145414527 0.693953079507 0.560192335019 10 7 9 11 47 0.184833028747 0.878786108254 0.306046920493 11 6 8 12 84 0.088215763720 0.967001871974 0.121213891746 12 5 7 13 121 0.027143311914 0.994145183887 0.032998128026 13 4 6 14 158 @ 0.005219867676 0.999365051563 0.005854816113 14 3 5 15 195 @ 0.000596556306 0.999961607869 0.000634948437 15 2 4 16 232 @ 0.000037284769 0.999998892638 0.000038392131 16 1 3 17 269 @ 0.000001096611 0.999999989249 0.000001107362 17 0 2 18 306 @ 0.000000010751 1.000000000000 0.000000010751 太字は観察された分割表。
@ は両側・片側検定での有意確率の計算に使われるもの。
- 検定は,表 4 のような結果に基づいて以下のようにして行う。(注)
- 片側検定の場合
例題は両側検定を要求しているが,片側検定の場合について説明する。例題では,表 4 において,観察された表を含めてそれよりも極端な側の分割表は,a = 13,14,15,16,17 の 5 つの表である。したがって,
P = P13 + P14 + P15 + P16 + P17
= 0.005219867676 + 0.000596556306 + 0.000037284769 + 0.000001096611 + 0.00000001075
= 0.0058548
となり,帰無仮説は棄却される。
- 両側検定の場合
例題では,表 4 において,観察された表を含めてそれよりも極端な側の分割表は,a = 0,1,2,3,4,13,14,15,16,17 の 10 個の表である。したがって,
P = P + P1 + P2 + P3 + P4 + P13 + P14 + P15 + P16 + P17
= 0.000000001132 + 0.000000182768 + 0.000008772887 + 0.000186423846 + 0.002087947070 + 0.005219867676 + 0.000596556306 + 0.000037284769 + 0.000001096611 + 0.00000001075
= 0.0081381
となり,帰無仮説は棄却される。
- 片側検定の場合
注:P 値を求めるためにここで示した方法は,Pearson のカイ二乗法と呼ばれるものである。この方法では,分割表において独立性の検定のためのカイ二乗統計量を計算し,その値が観察された分割表に対して計算されるものよりも大きい分割表を「極端な分割表」とするものである。上の計算では ad-bc を計算しているが,これはカイ二乗統計量の構成要素である。
Fisher が示した正確確率検定は,観察された分割表の生起確率よりも小さな生起確率を持つ分割表を「極端な分割表」であるとして,その生起確率を加えたものを P 値とするものである。
二つの方法による P 値は多くの場合には一致するが,異なることもある。
いくつかの注意点
Excel を使って計算するときには...
フィッシャーの正確確率検定
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2024/05/28 16:44 UTC 版)
![]() | この記事は英語版の対応するページを翻訳することにより充実させることができます。(2024年5月) 翻訳前に重要な指示を読むには右にある[表示]をクリックしてください。
|
フィッシャーの正確確率検定(フィッシャーのせいかくかくりつけんてい、英: Fisher's exact test)は、標本の大きさが小さい場合に、2つのカテゴリーに分類されたデータの分析に用いられる統計学的検定法である[1][2][3]。フィッシャーの直接確率検定ともいう。名称は考案者ロナルド・フィッシャーに因む。
2 x 2分割表(2つの集団が2カテゴリーに分類されたデータを扱う場合、自由度は1)の2変数の間に統計学的に有意な関連があるかどうかを検討するのに用いられる。1 x 2分割表の場合もある。同じ状況で標本の大きさが大きい場合には統計量の標本分布が近似的にカイ二乗分布に等しくなるのでカイ二乗検定が用いられるが、標本の大きさが小さい(分割表のセルの期待値に10未満のものがある)場合や、表中の数値の偏りが大きい場合にはこの近似は不正確である。この場合には正確確率検定が文字通り正確である。標本の大きさが大きい場合や、数値の偏りが小さい場合(差がなさそうに見える場合)には計算が難しいが、このようなときはカイ二乗検定が利用可能である。
以下に、2 x 2分割表での分析例を示す:
男および女の集団を、現在ダイエットしている人としていない人に分ける。たぶん女のほうが男よりダイエット中の人の割合が多いだろうと仮説を立て、その割合に有意差がある(性別とダイエット中かどうかとに関連がある)かどうかを検定する。データは次の2 x 2分割表で表される:
男 | 女 | 全 | |
---|---|---|---|
ダイエット中 | 1 | 9 | 10 |
非ダイエット | 11 | 3 | 14 |
合計 | 12 | 12 | 24 |
このデータは、全てのセルの期待値が10未満であるため、カイ二乗検定には向いていない。分割表を一般的な形に書き直す。各セルをa、b、c、d と表示し、各行・各列の小計をそれらの和で、また総計をn で表すと次のようになる:
男 | 女 | 全 | |
---|---|---|---|
ダイエット中 | a | b | a+b |
非ダイエット | c | d | c+d |
合計 | a+c | b+d | n |
フィッシャーは、このような数値の組み合わせが得られる確率p が次のような超幾何分布で表されることを示した:
フィッシャーの正確確率検定と同じ種類の言葉
検定に関連する言葉 | スピアマンの順位相関係数の有意性検定 母分散の検定 フィッシャーの正確確率検定 かながわ検定 適合度の検定 |
- フィッシャーの正確確率検定のページへのリンク