相関係数を使うときの注意
データが複数個の群から構成されている場合には,全体をまとめた相関係数の値は個々の群における相関係数とは異なったものになることがある。
- 図 1.はフィッシャーのアイリスデータとして有名なデータにおいて,2 種類のアヤメの萼片の長さと幅の相関関係を表したものである。それぞれの種類においては萼片の長さと幅は正の相関関係を示すが,種類を無視して全体の相関係数を求めると負の相関関係を示すようになる。
図 1.正の相関が負の相関に化ける例
- 図 2.は大学生の身長と体重の散布図である。男女共に正の相関係数を示す。男女まとめた場合も正の相関係数になるが,男女別に求めた相関係数のいずれよりも大きい相関係数となっている。
図 2.正の相関が誇張される例
- 図 3.は 2 変数 x,y の散布図であるが,実は,記号を変えて描いてあるように,元々は一番左下にある 50 個のデータをそれぞれ平行移動して作ったものである。それぞれのデータを区別するために,第 3 の変数 t を考える(t = 1, 2, 3, 4, 5)。
図 3.3 変数間の相関関係
t = 1 のデータ(■で表示されたデータ)で,x,y の間の相関係数は 0.000350603 である。
データ全体(t = 1 〜 5)としては,以下のような相関係数行列になる。
データ全体で,x,y の正しい相関関係を捉えるには,t を制御した x,y の偏相関係数を計算する。
偏相関係数 = (0.957876545 - 0.979684729 * 0.977724535) / √(1 - 0.979684729 ^2)/ √(1 - 0.977724535 ^2)=0.000350386
となり,これはまるめの誤差の範囲で 0.000350603 と等しい。x y t x 1.000000000 y 0.957876545 1.000000000 t 0.979684729 0.977724535 1.000000000
- 図 4.は,本来データが存在しない部分を考える本質がわかる。入学後の成績が観察されるのは,図のピンクの記号で示した部分である。このデータでは 相関係数は 0.0.259418338 となっている。データ点全体で計算される相関係数は 0.695291393 である。
図 4.切り取られたデータにおける相関
- 相関係数を使うときの注意のページへのリンク