Multiple comparisons problemとは？わかりやすく解説

データドレッジングによって得られた偶然の一致の例（スペリング・ビーにおける優勝が決まった単語の文字数と、毒グモによって殺されたアメリカ人の数との相関関係）。同じ期間の変数のプールが十分に大きければ、因果関係のない相関関係を示す2つのグラフを見つけることができる。

統計学における、多重比較、多重性、多重検定の問題は、複数の統計的推論を同時に検討したり^[1]、観測値に基づいて選択されたパラメータのサブセットを推論したりするときに発生する^[2]。

推論が多くなればなるほど、誤った推論の可能性が高くなる。この問題に対処するため、様々な統計的手法が開発されている。典型的な方法としては、行われる推論の数を補うように、個々の比較に対してより厳しい有意水準を要求する方法がある。

歴史

多重比較の問題は、1950年代にジョン・テューキーやヘンリー・シェッフェなどの統計学者の研究によって注目されるようになった。その後数十年にわたって、この問題に対処するために多くの手続きが開発された。1996年には、多重比較の取り扱いに関する最初の国際会議がテルアビブで開催された^[3]。

定義

多重比較は、ある統計分析が複数の統計検定を同時に含み、その各々が何かしらの「発見」をもたらす可能性があるときに生じる。一般な分析の際には、個別の検定に信頼基準を設定し、設定された信頼基準は各々の検定にのみ適用されるが、多くの場合、同時に行われる検定の系列全体に対する一律の信頼水準を持つことが望ましい^[4]。多重検定の補正に失敗すると、以下の例で示されるように、実際に重要な結果を招く可能性がある。

処置群は生徒に新しい方法でライティングを教えた群で、対照群は標準的なライティングの教え方を使った群だとする。2つのグループの生徒は、文法、スペル、構成、内容などの点で比較することができる。より多くの項目を比較すると、標本誤差だけで、少なくとも1つの項目で処置群と対照群が異なるように見える可能性が高くなる。

ある薬の有効性を、いくつかの病気の症状のどれか1つの軽減という観点から考えるとする。より多くの症状を考慮すればするほど、少なくとも1つの症状において、その薬が既存の薬より改善されているように見える可能性が高くなる。

どちらの例でも、比較の数が増えるにつれて、比較されるグループが少なくとも1つの項目に関して異なって見える可能性が高くなる。ある結果が独立したデータによって一般化されるという確信は、一般的に、単一の比較のみを行った分析よりも、複数の比較を含む分析の一部として観察された場合の方が弱くなるはずである。

たとえば、1つの検定が有意水準5%で実施され、対応する帰無仮説が真であれば、帰無仮説を誤って棄却するリスクは5%だけである。しかし、100個の検定がそれぞれ有意水準5%で実施され、対応する帰無仮説がすべて真である場合、予想される不正確な棄却（偽陽性または第一種過誤としても知られる）の数は5つになる。また、検定が互いに統計的に独立している（すなわち、独立標本で実施されている）場合、誤った棄却が少なくとも1つある確率は約99.4%になる。

このような多重検定で発生する偽陽性率の上昇や網羅率の低下を防ぐ手法が開発されている。

多重仮説検定の分類

次の表は、複数の帰無仮説を検定するときに起こりうる結果を定義したものである。m個の帰無仮説があるとし、それぞれを $H 1, H 2, ..., H m .$ で表す。統計的検定を用いて、検定が有意であると宣言された場合、帰無仮説を棄却する。検定が有意でない場合は、帰無仮説を棄却しない。すべてのH_i にわたって各検定結果を合計すると、以下の確率変数が得られる。

	帰無仮説が真であるケースの数 (H₀)	対立仮説が真であるケースの数 (H_A)	合計
有意であるとされた検定の数	$V$	$S$	$R$
有意でないとされた検定の数	$U$	$T$	$m-R$	現在、技術上の問題で一時的にグラフが表示されなくなっています。