主成分分析とは? わかりやすく解説

556の専門辞書や国語辞典百科事典から一度に検索! Weblio 辞書 ヘルプ
Weblio 辞書 > 辞書・百科事典 > デジタル大辞泉 > 主成分分析の意味・解説 

しゅせいぶん‐ぶんせき【主成分分析】

読み方:しゅせいぶんぶんせき

多変量解析において、分析対象特徴づける複数変数の中から、より対象特徴総合的に説明できる少数変数主成分)を選択する統計的技法


主成分分析

読み方しゅせいぶんぶんせき
【英】:principal component analysis

解析対象に対して, 複数量的特性についての値が得られているときに, これらの特性との関係をできるだけ失わないようにして, 元の特性1次式表される総合特性値いくつか求め方法. 総合特性値主成分といい, それらの係数は, 分散対角項, 共分散を非対角項とする分散共分散行列または対角項を1, 非対角項を相関係数とする相関係数行列固有ベクトルを, 固有値大きい方から順に選ぶことによって求められる.

「OR事典」の他の用語
統計:  クラスター分析  主成分分析  判別関数  回帰分析  因子分析  多変量解析  多次元尺度構成法

主成分分析

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2024/02/16 13:42 UTC 版)

(1, 3) を中心とし(0.866, 0.5) 方向の標準偏差3、それに直交する方向の標準偏差が 1多変量正規分布に従うデータセットに対する主成分分析の結果。矢印で示される 2 つベクトル共分散行列固有ベクトルであり、ベクトルの長さはそれぞれの固有ベクトルの固有値の平方根に等しくなるようにスケールされている。また 2 つの固有ベクトルは分布の中心(平均)が原点となるように配置してある。

主成分分析(しゅせいぶんぶんせき、: principal component analysis; PCA)は、相関のある多数の変数から相関のない少数で全体のばらつきを最もよく表す主成分と呼ばれる変数を合成する多変量解析の一手法[1]。データの次元を削減するために用いられる。

主成分を与える変換は、第一主成分の分散最大化し、続く主成分はそれまでに決定した主成分と直交するという拘束条件の下で分散を最大化するようにして選ばれる。主成分の分散を最大化することは、観測値の変化に対する説明能力を可能な限り主成分に持たせる目的で行われる。選ばれた主成分は互いに直交し、与えられた観測値のセットを線型結合として表すことができる。言い換えると、主成分は観測値のセットの直交基底となっている。主成分ベクトルの直交性は、主成分ベクトルが共分散行列(あるいは相関行列)の固有ベクトルになっており、共分散行列が実対称行列であることから導かれる。

主成分分析は純粋に固有ベクトルに基づく多変量解析の中で最も単純なものである。主成分分析は、データの分散をより良く説明するという観点から、そのデータの内部構造を明らかにするものだと考えられる。多くの場合、多変量データは次元が大きく、各変数を軸にとって視覚化することは難しいが、主成分分析によって情報をより少ない次元に集約することでデータを視覚化できる。集約によって得られる情報は、データセットを元のデータ変数の空間から主成分ベクトルのなす空間へ射影したものであり、元のデータから有用な情報を抜き出したものになっている。主成分分析によるデータ構造の可視化は、可視化に必要なだけ先頭から少数の主成分を選択することで実現される。

主成分分析は探索的データ解析における主要な道具であり、予測モデル構築英語版にも使われる。主成分分析は観測値の共分散行列や相関行列に対する固有値分解、あるいは(大抵は正規化された)データ行列の特異値分解によって行われる[2]。主成分分析の結果は主成分得点(因子得点、: score)と主成分負荷量(因子負荷量、: loadings)によって評価される[3]。主成分得点とは、あるデータ点を主成分ベクトルで表現した場合の基底ベクトルにかかる係数であり、ある主成分ベクトルのデータ点に対する寄与の大きさを示す。主成分負荷量はある主成分得点に対する個々の(正規化された)観測値の重みであり、観測値と主成分の相関係数として与えられる。主成分分析は観測値の間の相対的なスケールに対して敏感である。

主成分分析による評価は主成分得点と主成分負荷量をそれぞれ可視化した主成分プロット、あるいは両者を重ね合わせたバイプロットを通して解釈される。主成分分析を実行するためのソフトウェアや関数によって、観測値の基準化の方法や数値計算のアルゴリズムに細かな差異が存在し、個々の方法は必ずしも互いに等価であるとは限らない(例えば、R言語における prcomp 関数と FactoMineR の PCA 関数の結果は異なる)。

直感的な説明

主成分分析は与えられたデータを n 次元の楕円体にフィッティングするものであると考えることができる。このとき、それぞれの主成分は楕円体の軸に対応している。楕円体の軸が短いほどデータの分散は小さく、短い軸に対応する主成分を無視することで、データの分散と同程度に小さな情報の損失だけで、データをより少ない変数で表現することができる。

楕円体の軸を見つけるには、データの平均座標軸原点に合わせる必要がある。そのため、データの共分散行列を計算し、共分散行列に対する固有値固有ベクトルを計算する。また、それぞれの固有ベクトルを直交化し、正規化する必要がある。固有ベクトルの組として互いに直交する単位ベクトルが得られたなら、それらに対応する軸を持つ楕円体によってデータをフィッティングすることができる。それぞれの軸に対する寄与率proportion of the variance: 分散の)は、その軸に対応する固有ベクトルに対する固有値を、すべての固有値の和で割ったものとして得ることができる。

注意すべき点として、分散はデータのスケールに依存するため、主成分分析の結果はデータをスケール変換することで変わり得るということが挙げられる。

歴史と名称

主成分分析は1901年カール・ピアソンによって導入された[4]。ピアソンは力学における主軸定理英語版からの類推によって主成分分析の方法を得た。主成分分析は、ピアソンとは独立に1930年代にハロルド・ホテリングよっても導入され、ホテリングによって主成分分析 (principal component analysis) と呼ばれるようになった[5][6]。(Jolliffe (2002, 1.2 A Brief History of Principal Component Analysis) 参照。)

主成分分析は応用分野によって様々な呼び名がある。

分野 呼び名
信号処理
  • 離散(コサンビ・)カルフネン・ロエヴェ変換[注 1]
  • KL展開[注 2]
品質管理
機械工学
線型代数学
計量心理学[注 5]
気象学
雑音・振動
構造力学
  • モーダル解析

関連する手法

主成分分析は因子分析によく似ている。因子分析は、データの背後にある構造に関する分野固有の仮設と、主成分分析の場合とはわずかに異なった行列に対する固有ベクトルを求める手法である、と要約できる。

主成分分析は正準相関分析 (canonical correlation analysis; CCA) とも関わりがある。正準相関分析は二つのデータセット間の相互共分散に基いて座標系を定める手続きだが、主成分分析は単一のデータセットの分散に基いて座標系を選択する手法である[7][8]

詳細

数学的には主成分分析はデータの基底に対し直交変換(回転)を行い、新たな座標系を得ることであり[9][要ページ番号]、新しい座標系はその第一成分(第一主成分と呼ばれる)から順に、データの各成分に対する分散が最大になるように選ばれる。

以下では、データ行列 X として、各列の標本平均が 0 になるものを考える[注 9]。データ行列の各列 p はそれぞれデータが持つ特定の指標に対応し、データ行列の各行 n はそれぞれ異なる事例に対する指標の組を表す[注 10]

主成分分析は p 次元ベクトル wk によってデータ行列 X の各行 xi を主成分得点のベクトル t(i) = (t1, ..., tk)(i) に変換することであり、主成分得点tk(i) はデータ点 xi と負荷量ベクトル wk内積によって与えられる。

354の個体について、37のY染色体STRマーカーの反復回数から計算された Y-STR英語版 ハプロタイプに対する主成分分析の結果。主成分分析により、個体のY染色体の遺伝的な系統についてクラスタリングするようなマーカーの線型結合を得ることに成功している。

元のデータセットの分散をできる限り残すように次元削減することは、高次元のデータセットを可視化する上で重要である。例えば、主成分の数を L = 2 に選び、2つの主成分がなす平面にデータセットを射影すると、射影されたデータ点は主成分のなす平面に対して最もよく分散し、データに含まれるクラスタはそれぞれ分離される。したがって、2つの主成分がなす平面はデータを平面上にプロットする上で都合がよい。射影平面として別の平面を選んだ場合、クラスタ間のばらつきは小さくなり互いに重なり合うようになるため、実質上はそれぞれのクラスタを分類することが困難になってしまう。

回帰分析でも次元削減は有効である。回帰分析において、説明変数の数を増やすほど特定のデータに対して過剰適合したモデル、すなわち他のデータセットに対して誤った結果を与えるモデルを得がちである。モデル生成に使ったデータに対してモデルが過剰適合しないためには、説明変数の個数を適当に制限する必要があり、一つのアプローチとして、互いに強い相関を持つ説明変数を削減し、より少数の主成分によって回帰分析を行う方法がある。この方法を主成分回帰英語版と呼ぶ。

次元削減はノイズの大きなデータを分析する上でも適切であることが多い。データ行列の各列、つまりそれぞれの特徴量に対して独立同分布ガウシアンノイズが含まれる場合、変換されたデータ行列 T の列にも同様に独立同分布なガウシアンノイズが含まれる(座標軸の回転操作 W に対して独立同分布なガウス分布は不変であるため)。しかしながら、最初の少数の主成分に関しては、全体の分散に比べてノイズに由来する分散が小さくなるため、シグナル・ノイズ比を高めることができる。主成分分析は主要な情報を少数の主成分に集中させるため、次元削減によってノイズが支配的な成分だけを捨て、データ構造を反映した有用な成分を取り出すことができる。

特異値分解

主成分変換は行列特異値分解とも結び付けられる。行列 X の特異値分解は以下の形式で与えられる。


ウィキペディアウィキペディア

主成分分析

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/05/16 21:08 UTC 版)

次元削減」の記事における「主成分分析」の解説

詳細は「主成分分析」を参照 次元削減線形アプローチの中で主要なのである主成分分析は、データ低次元空間に対して線形マッピングする。マッピング方法としては、低次元表現におけるデータの分散最大化するようにするものがある。実際には、データ共分散(あるいは相関係数)の行列作り、その固有ベクトル計算する最大固有値対応する固有ベクトル主成分)は、元データの分散最大になる方向示している。さらに、固有値大きい順に並べたときの最初数個固有ベクトルは、特に低次元の系では系のエネルギー大部分占めているため、系の物理的なふるまい解析するのに役立つ。勿論、全ての系がこのようなふるまいを示すわけではなくケースバイケースである。主成分分析により、少数固有ベクトル張られる空間次元削減できる[要出典]。

※この「主成分分析」の解説は、「次元削減」の解説の一部です。
「主成分分析」を含む「次元削減」の記事については、「次元削減」の概要を参照ください。

ウィキペディア小見出し辞書の「主成分分析」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。 お問い合わせ


英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

カテゴリ一覧

すべての辞書の索引



Weblioのサービス

「主成分分析」の関連用語




4
主成分 デジタル大辞泉
76% |||||







主成分分析のお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



主成分分析のページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
デジタル大辞泉デジタル大辞泉
(C)Shogakukan Inc.
株式会社 小学館
日本オペレーションズ・リサーチ学会日本オペレーションズ・リサーチ学会
Copyright (C) 2025 (社)日本オペレーションズ・リサーチ学会 All rights reserved.
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアの主成分分析 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。
ウィキペディアウィキペディア
Text is available under GNU Free Documentation License (GFDL).
Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、Wikipediaの次元削減 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

©2025 GRAS Group, Inc.RSS