多重共線性 multicollinearity
詳しくは,重回帰分析を参照のこと。
多重共線性
変数選択を行わない場合には,独立変数相互間に相関の高いものは含めないほうがよい。
もし,それらの中に独立でないものが含まれていると( 例えば変数 A,B とその合計値 C = A + B が共に含まれていると )分析は失敗する。
場合によっては,各独立変数と従属変数との相関係数の符号と,偏回帰係数の符号が一致しない場合が生ずる。これは,「予測を行う」という観点から偏回帰係数が定められるので,重回帰式に含まれた変数相互間の関連で符号が決められるためである。このようなことが起きるのは,独立変数間に相関の高いものが混ざっていることが原因である( ある変数で予測しすぎた部分を別の変数で打消しているような場合がある )。しかし,このようなことは因果関係を考える上では不都合なので,符号が一致しない独立変数を除いた重回帰式を探索するとよいであろう。
独立変数間の相関係数行列の逆行列の要素を rii としたとき,

は,独立変数 i を残りの独立変数で予測するときの重相関係数になっている。したがって,この数値が大きいものは独立変数としてふさわしくないことを表す。
これと同じことであるが 1 / rii を トレランス,rii を 分散拡大係数 と呼ぶことがある。この場合には,トレランスが低い( 分散拡大係数が大きい )独立変数は除く方がよいことを表す。
多重共線性
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/07/29 15:17 UTC 版)
統計学において、多重共線性(たじゅうきょうせんせい、英語: Multicollinearity、単に共線性とも略される)とは、重回帰モデルにおいて、説明変数の中に、相関係数が高い組み合わせがあることをいう(例: 体重とBMI)。重回帰分析の際、説明変数を増やすほど決定係数が高くなりやすいために、より多くの説明変数を入れ、多重共線性を起こす可能性がある [1]。このような状況では、モデルやデータの小さな変化に応じて、重回帰の係数推定値が不規則に変化しうる。多重共線性は、少なくともサンプルデータセット内では、全体としてのモデルの予測力または信頼性を低下させず、個々の予測変数に関する計算にのみ影響を与える。つまり、共線性予測変数を持つ多変量回帰モデルは、予測変数の全体がどれだけよく結果変数を予測するかを示すことができるが、個々の予測変数に関する有効な結果、またはどの予測変数が不要かに関しては有効な結果を与えないことも考えられる。
- ^ 井上俊夫, 岩崎祐一, 加藤剛, 熊倉隆二 『わかりやすい薬学系の統計学入門』小林賢, 佐古兼一 編(第9版)、講談社、2020年、106頁。ISBN 978-4-06-156312-4。
- ^ O’Brien, R. M. (2007). “A Caution Regarding Rules of Thumb for Variance Inflation Factors”. Quality & Quantity 41 (5): 673–690. doi:10.1007/s11135-006-9018-6.
- ^ Farrar, Donald E.; Glauber, Robert R. (1967). “Multicollinearity in Regression Analysis: The Problem Revisited”. Review of Economics and Statistics 49 (1): 92–107. doi:10.2307/1937887. hdl:1721.1/48530. JSTOR 1937887 .
- ^ Wichers, C. Robert (1975). “The Detection of Multicollinearity: A Comment”. Review of Economics and Statistics 57 (3): 366–368. doi:10.2307/1923926. JSTOR 1923926.
- ^ Kumar, T. Krishna (1975). “Multicollinearity in Regression Analysis”. Review of Economics and Statistics 57 (3): 365–366. doi:10.2307/1923925. JSTOR 1923925.
- ^ O'Hagan, John; McCabe, Brendan (1975). “Tests for the Severity of Multicolinearity in Regression Analysis: A Comment”. Review of Economics and Statistics 57 (3): 368–370. doi:10.2307/1923927. JSTOR 1923927.
- ^ a b Belsley, David (1991). Conditioning Diagnostics: Collinearity and Weak Data in Regression. New York: Wiley. ISBN 978-0-471-52889-0
- ^ R言語用のパッケージがある。:“perturb: Tools for evaluating collinearity”. R Project. 2015年7月18日 13:55閲覧。
- ^ Chatterjee, S.; Hadi, A. S.; Price, B. (2000). Regression Analysis by Example (Third ed.). John Wiley and Sons. ISBN 978-0-471-31946-7
- ^ Gujarati, Damodar (2009). “Multicollinearity: what happens if the regressors are correlated?”. Basic Econometrics (4th ed.). McGraw−Hill. pp. 363
- ^ “12.6 - Reducing Structural Multicollinearity |。STAT 501”. newonlinecourses.science.psu.edu. 2019年3月16日閲覧。
- ^ Lipovestky; Conklin (2001). “Analysis of Regression in Game Theory Approach”. Applied Stochastic Models in Business and Industry 17 (4): 319–330. doi:10.1002/asmb.446.
- ^ 詳細な議論についてはこちら:Van Den Poel, D.; Larivière, B. (2004). “Customer attrition analysis for financial services using proportional hazard models”. European Journal of Operational Research 157: 196–217. doi:10.1016/S0377-2217(03)00069-9.
- ^ Kock, N.; Lynn, G. S. (2012). “Lateral collinearity and misleading results in variance-based SEM: An illustration and recommendations”. Journal of the Association for Information Systems 13 (7): 546–580. doi:10.17705/1jais.00302 .
多重共線性
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/03/27 14:50 UTC 版)
「多重共線性」も参照 独立変数(説明変数)を選択する際、マーケティングやアンケートでよく使う一般的な重回帰の場合、複数の説明変数同士は強い相関がないという仮定が入っている。そのため、説明変数同士が関連性の高い場合、一般化線形モデルでは多重共線性と呼ばれる状態になるため、係数が直感に反する値になることがある。 例えば、小学校での定期テスト得点から重回帰で分析する場合、理科の点数を従属変数に、数学と国語とを説明変数にした場合、数学が増えると理科の点数が増え、国語の点数が高ければ理科の点数が減るといった意味の係数が出ることがある。これは数学と国語との点数の間に強い相関がある(一般に、どちらの成績も学習習慣や知能の影響を強く受ける)ことで起こりうる。この場合のように説明変数間の相関が高いと係数が不安定になりやすい。 実務的対応としては、一方を除いて分析するのが最も手軽である。また、数学と国語の平均点と、数学と国語の得点の差というように和と差に数字を加工すると、この2つは相関がたいてい低く、かつ解釈しやすい。数学と国語の得点の差は、数学の方が高い生徒の方が理科の点数が高い傾向があるというように理解できるためである。ただし、このような正の相関を持つ変数同士の差得点は元の変数よりも信頼性が落ちるので、サンプル数を増やすなどの対応が求められる。 また、適切な予測力を実質的には持たない変数であっても、説明変数に加えると予測式自体の寄与率(決定係数)R2は上がることが多い。そのため、単なるR2ではなく、その分を調整した修正R2を参照する、ステップワイズ法(英語版)等で投入する説明変数を取捨選択する、AICを見るなどの対応が求められる。
※この「多重共線性」の解説は、「重回帰分析」の解説の一部です。
「多重共線性」を含む「重回帰分析」の記事については、「重回帰分析」の概要を参照ください。
多重共線性と同じ種類の言葉
- 多重共線性のページへのリンク