独立変数が二値の場合
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/03/27 14:50 UTC 版)
性別や民族といった名義尺度データを説明変数に用いたい場合は、ダミー変数を導入して重回帰分析を行うことになる。日本国内で見かける数量化I類は、実質的にはこれと同じ分析である。 ダミー変数は通常、条件ごとに説明変数を作り 0 {\displaystyle 0} と 1 {\displaystyle 1} を持つデータを設定して、分析する。その際、重回帰では一つは回帰式に含めない(多重共線性を避けるためである)。 信号の色による車の通過速度の違いを例に取ると、 v ¯ = 50 × δ B + 15 × δ Y + 0 {\displaystyle {\overline {v}}=50\times \delta _{B}+15\times \delta _{Y}+0} 変数意味 v ¯ {\displaystyle {\overline {v}}} 信号機のある交差点を通過する車の平均速度 ( k m / h {\displaystyle km/h} ) δ B {\displaystyle \delta _{B}} 信号が青なら 1 {\displaystyle 1} 、さもなくば 0 {\displaystyle 0} δ Y {\displaystyle \delta _{Y}} 信号が黄色なら 1 {\displaystyle 1} 、さもなくば 0 {\displaystyle 0} という式が得られうる。 この場合、青でも黄色でもない条件のデータは、赤になり、計算値は定数の0になる。つまり、赤なら平均速度 0 k m / h {\displaystyle 0km/h} となる。解釈としては交差点を抜ける車はいないという意味になる。また、青の場合なら平均速度は 50 k m / h {\displaystyle 50km/h} と推定されたことになる。 男女の体重の予測では、 w = 12 × δ m + 50 {\displaystyle w=12\times \delta _{m}+50} 変数意味 w {\displaystyle w} 体重 ( k g {\displaystyle kg} ) δ m {\displaystyle \delta _{m}} 男なら 1 {\displaystyle 1} 、さもなくば 0 {\displaystyle 0} という予測式が得られたら、男でない「女」の平均体重は 50 k g {\displaystyle 50kg} と計算される。男性なら 12 k g {\displaystyle 12kg} 多く、 62 k g {\displaystyle 62kg} が平均になるという意味になる。ちなみにこれは同じデータを男女別に単純平均したものと一致する。 性別、学年など複数の変数を組み合わせて、分析することもできる。 w = α × δ m + β × G {\displaystyle w=\alpha \times \delta _{m}+\beta \times G} 変数意味 w {\displaystyle w} 体重 ( k g {\displaystyle kg} ) δ m {\displaystyle \delta _{m}} 男なら 1 {\displaystyle 1} 、さもなくば 0 {\displaystyle 0} G {\displaystyle G} 学年 また、「男性で1年生なら 1 {\displaystyle 1} 」というように細かく分けてダミー変数を増やして重回帰を行うことも可能ではある。ただし、説明変数の数が大きく増すので、連関の強いダミー変数同士で多重共線性の問題が生じやすいこと、十分な信頼性を確保するためにはサンプル数がかなり求められることなどを考えると、実用性に乏しい。
※この「独立変数が二値の場合」の解説は、「重回帰分析」の解説の一部です。
「独立変数が二値の場合」を含む「重回帰分析」の記事については、「重回帰分析」の概要を参照ください。
- 独立変数が二値の場合のページへのリンク