出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2023/11/01 17:20 UTC 版)
言葉の由来
英語の variance(バリアンス)という語はロナルド・フィッシャーが1918年に導入した[3]。
確率変数の分散
2乗可積分確率変数 X の分散は期待値を E[X] で表すと
で定義される。これを展開して整理すると
とも書ける。また確率変数 X の特性関数を φX(t) = E[eitX] とおくと(i は虚数単位)、これは 2階連続的微分可能で
と表示することもできる。
チェビシェフの不等式から、任意の正の数 ε に対して
が成り立つ。これは分散が小さくなるほど確率変数が期待値に近い値をとりやすくなることを示す大まかな評価である。
性質
X, X1, …, Xn を確率変数、a, b, a1, …, an を定数とし、共分散を Cov[ · , · ] で表すと
- (非負性)
- (位置母数(英語版)に対する不変性)
- (斉次性)
を満たす。したがって、特に X1, …, Xn が独立ならば、
より
が成り立つ。
例
- 確率変数 X が一様分布 U(a, b) に従うとき、V(X) = (b − a)2/12
- 確率変数 X が正規分布 N(μ, σ2) に従うとき、V(X) = σ2
- 確率変数 X が二項分布 B(n, p) に従うとき、V(X) = np(1 − p)
- 確率変数 X がポアソン分布 Po(λ) に従うとき、V(X) = λ
データの分散
推計統計学では、母集団の分散と標本の分散を区別する必要がある。
母分散
大きさが n である母集団 x1, x2, …, xn に対して、平均値を μ で表すとき、偏差の自乗の平均値
を母分散(ぼぶんさん、英: population variance)と言う[4]。
標本分散・不偏標本分散
大きさが n である標本 x1, x2, …, xn に対して、平均値を x で表すとき、偏差の自乗の平均値
で定義される s2 を標本分散(ひょうほんぶんさん、英: sample variance)と言う。s は標準偏差と呼ばれる[4]。
定義より、
となるから、標本分散は2乗の平均値と平均値の2乗との差に等しい。ただし、この計算では概して二乗平均が巨大になるため、浮動小数点数による近似計算を行う場合には大きな丸め誤差が生じる可能性がある(桁落ち)。このため、浮動小数点数を扱う場合には定義に従って偏差の二乗和を計算することが一般的である(あるいは一般の総和計算と同じくカハンの加算アルゴリズムやpairwise summation(英語版)のような手法により、誤差を小さくする工夫がなされることもある)。
一般に、標本分散の平均値は母分散より少し小さくなる。実際には、平均と分散を持つ同一分布からの無作為標本に対して、標本分散の期待値 E[s2] について、
が成り立つ。そこで
を用いると、平均値が母分散に等しくなる推定量が得られる。つまり母分散の不偏推定量となる。これを不偏標本分散(ふへんひょうほんぶんさん、英: unbiased sample variance)や不偏分散(ふへんぶんさん、英: unbiased variance)と呼ぶ[4]。
上記の標本分散は不偏でないことを強調する場合偏りのある標本分散(英: biased sample variance)と言う。
なお、不偏標本分散を単に標本分散と呼ぶ文献もある。
定義から明らかに、標本の大きさが大きくなる程につれて偏りのある標本分散は不偏標本分散に近づく。