分散分析分散分析の概要

分散分析の最も単純な形は，2つ以上の標本の母集団が等しいかどうかを判断するt-検定であり、分散分析ではこれを一般化したものである。

統計学者で遺伝学者のロナルド・フィッシャーによって1920年代から1930年代にかけて基本手法が確立された。そのため「フィッシャーの分散分析」「フィッシャーのANOVA法」とも呼ばれる。

基本的な手法として、まず、データの分散成分の平方和を分解し、誤差による変動から要因効果による変動を分離する。次に、平方和を自由度で割ることで平均平方を算出する。そして、要因効果（または、交互作用）によって説明される平均平方を分子、誤差によって説明される平均平方を分母とすることでF値を計算する（F検定）。各効果の有意性については有意水準を設けて判定する。

交互作用の性質を詳しく調べるには、単純主効果の検定や交互作用対比を行うとよい。また、3つ以上の水準を持つ要因の効果が有意であったとき、具体的にどの群とどの群の間に差があったかを知るためには、多重比較を行う必要がある。したがって、分析の目的によっては、分散分析のみから結論が導かれるものではなく、これらの手法と組み合わせて用いることが肝要である。

分散分析には各種のモデルがあり、データの性質や要因計画の型、検証したい仮説に応じてそれらを使い分けることが適切な利用法である（一元配置分散分析・回帰分散分析・共分散分析など）。現在では、分散分析は一般線形モデル、構造方程式モデリングの一部として扱えることが判明しており、さらなる拡張も可能である（潜在変数に対する分散分析など）。

分散方法は、実験データの分析やモデルの開発によく用いられる。相関関係と比べると、数値変数でない変数を扱えるなどの利点がある。

基本概念と用語

分散分析は，実験データの解析に多用される統計的仮説検定の一形態である。帰無仮説が正しいと仮定して、帰無仮説と標本から計算された検定結果が、偶然に発生した可能性が低いと判断される場合、”統計的に有意”と呼ばれる。帰無仮説の発生確率が低い場合、確率(P値)が事前に指定されたしきい値(有意水準)よりも小さい場合、統計的に有意な結果によって帰無仮説は棄却される。

分散分析の典型的な使い方は、「すべてのグループが同じ母集団からのランダムなサンプルである」という帰無仮説である。たとえば，患者の類似したサンプルに対する異なる治療法の効果を研究するとき，帰無仮説を「すべての治療法が同じ効果を持つ（何も起こらないという結果になる）」とする。帰無仮説を棄却されると、「治療グループ間で観察された効果の違いが、無作為な偶然によるものである可能性が低い（＝効果の違いは治療に原因がある）」ことを意味する。

仮説検定では、第一種の過誤（偽陽性）の発生率を有意水準に制限する。実験者は，第二種の過誤（偽陰性）も制限したいと考える。第二種の過誤の発生率は、サンプルサイズ、有意水準、効果量に大きく依存する。（サンプルが小さいほど発生率は大きくなる。有意水準が高いと、差異を見落とす可能性も高くなる。効果量が小さいほど第2種エラーが発生しやすくなる。）

分散分析の用語は、多くが実験計画法に由来する。実験者は、効果を決定するために、要因を調整し反応を測定する。結果の妥当性を保証するために，ランダム化とブロッキングの組み合わせによって因子は実験ユニットに割り当てられる。また実験対象によっては盲検化を行い、結果の公平性を確保する。応答は、効果による偏りとランダムなエラーの複合で変動する。

分散分析は、いくつかのアイデアの合成であり、多くの目的に使用され，簡潔または正確に定義することは困難である。

バランスのとれたデータのための "古典的 "分散分析は、次の3つを同時に行う。

1.探索的データ分析として、分散分析は加法的データ分解を採用し、その二乗和は分解の各成分（または同等に、線形モデルの各項のセット）の分散を示す。 2.平均二乗の比較とF検定により、モデルの入れ子構造を検証することができる。 3.係数推定値と標準誤差を伴う線形モデルのフィッティングに密接に関連する。

分析の例

例としてドッグショーに出品される犬について、その特徴に基づいて犬の体重を予測することを考える。ドッグショーとは純血犬種の品評会であり、その犬種の基本的な犬種標準（スタンダード）に最も近いことを競うものである。

ドッグショーに出品される全部の犬の体重のヒストグラムは、かなり複雑なものになる。犬を特徴に基づきグループ分けすることで、体重の分布を予測する。グループ分けが上手くいったときには（a）各グループの分散が小さく（グループが比較的均質さを意味する）、（b）各グループの平均値が異なる（2つのグループの平均値が同じであればグループ分けが意味をなしていない）。

・若い犬と年老いた犬、短毛の犬と長毛の犬という2つの2値グループの積（相互作用）によって犬をグループ化することを考える。 ⇒　あまり予測として役に立たなさそう。このとき各グループ内の犬の体重分布は比較的大きな分散を持ち、平均値はグループ間で非常によく似ている。これらの特徴で犬をグループ化しても、犬の体重の変動を説明する効果的な方法にはならない。

・体重分布をペット犬と作業犬、運動量の少ない犬と多い犬でグループ化することを考える。 ⇒　ある程度うまくいきそう。最も重い犬達は、大きくて強い作業犬種である可能性が高く、ペットとして飼われている犬種は小さくて軽い傾向がある。分散は1つ目のケースよりもかなり小さく、グループ間での平均値の差もよりはっきりする。しかし分布の重なりは依然大きく、予測の精度はまだ低い。

・体重を犬種でグループ化することを考える。 ⇒非常によく予測が当てはまりそう。チワワはみんな軽く、セントバーナードは総じて重い。セッターとイングリッシュ・ポインターで体重の違うと言っても、直感的な説明では説得力に欠くとき、分散分析を用いることで論理的に違うことを説明できる。

脚注

^ Nakano Hiroyuki. “js-STAR 2012”. 2012年4月4日閲覧。
^ Kiriki Kenshi (2002年). “ANOVA4 on the Web”. 2012年4月4日閲覧。
^ 粒子計測研究室 NMIJ/AIST (2011年). “不確かさWeb 分散分析プログラム”. 2012年4月4日閲覧。
^ 日本ニューメリカルアルゴリズムズグループ株式会社 (2012年). “Excel NAG 統計解析アドイン”. 2012年4月4日閲覧。
^ Chris Rorden. “ezANOVA free statistical software”. 2012年4月4日閲覧。
^ Bioconfuctor. “maanova”. 2012年4月4日閲覧。
^ H.Akiba (1995年2月27日). “２因子多水準分散分析”. 2012年4月4日閲覧。
^ 渡辺利夫 (2007年1月30日). “R Language”. 2012年4月4日閲覧。

[前の解説]

[続きの解説]

「分散分析」の続きの解説一覧

[1] Nakano Hiroyuki. “js-STAR 2012”. 2012年4月4日閲覧。

[2] Kiriki Kenshi (2002年). “ANOVA4 on the Web”. 2012年4月4日閲覧。

[3] 粒子計測研究室 NMIJ/AIST (2011年). “不確かさWeb 分散分析プログラム”. 2012年4月4日閲覧。

[4] 日本ニューメリカルアルゴリズムズグループ株式会社 (2012年). “Excel NAG 統計解析アドイン”. 2012年4月4日閲覧。

[5] Chris Rorden. “ezANOVA free statistical software”. 2012年4月4日閲覧。

[6] Bioconfuctor. “maanova”. 2012年4月4日閲覧。

[7] H.Akiba (1995年2月27日). “２因子多水準分散分析”. 2012年4月4日閲覧。

[8] 渡辺利夫 (2007年1月30日). “R Language”. 2012年4月4日閲覧。

分散分析 分散分析の概要

分散分析

基本概念と用語

分析の例

急上昇のことば

「分散分析」の関連用語

分散分析分散分析の概要