クラスター分析とは? わかりやすく解説

Weblio 辞書 > 辞書・百科事典 > デジタル大辞泉 > クラスター分析の意味・解説 

クラスター‐ぶんせき【クラスター分析】


クラスター分析


 似通った個体あるいは変数グループ化を行うための分析手法である。
 クラスター分析の結果は,図 1 のようなデンドログラム(樹状図)として表現される
クラスター分析
1.クラスター分析の結果として得られるデンドログラム



 個体似通っているかどうか判定基準としてはいくつかあるが,取り扱い容易なユークリッド距離用いる。
 個体のクラスター分析を行う場合には,解析用いデータ正規化する場合としない場合では結果がかなり異なことがある。  解析使用する変数異なった単位表されているときには正規化した方がよいかもしれない。しかし,ある変数決定的な性質を持つ場合には,正規化することは他の変数同格取り扱ってしまうことになるので正規化しない方がよいかもしれない
 n 個の個体について,p 個の変数 Xi1, Xi2, ... , Xip( i = 1,2, ... ,n )があるとする。 初期状態として,n 個のクラスターがあるとする(各クラスターは 1 個体ずつを含むと考える)。

表 1.クラスター分析の各種法で距離の再定義において使用されるパラメータ

αa αb β γ 使用される
最短距離 0.5 0.5 0 -0.5 ( 1 )
最長距離法 0.5 0.5 0 0.5 ( 1 )
メディアン 0.5 0.5 -0.25 0 ( 1 )
重心 na/nc nb/nc -(nanb)/nc2 0 ( 2 )
群平均法 na/nc nb/nc 0 0 ( 2 )
可変 (1-β*)/2 (1-β*)/2 β* 0 ( 2 )
ウォード法 (nx+na)/(nx+nc) (nx+nb)/(nx+nc) -nx/(nx+nc) 0 ( 2 )
  na は,クラスター a に含まれる個体数データ個数)。nb, nc, nx も同様
β*は1未満任意の
 ( 1 )式または( 2 )式で併合後のユークリッド距離計算するときの定数 αa,αb,β,γ をどのように選ぶかによって,表 1 に示す 7 種類のクラスター分析が行える。
 各手法の分類感度は,クラスター融合によって空間拡散される場合高く濃縮され場合低くなる。各手法特徴以下の通りである。
手法 特徴
ウォード法 最も明確なクラスター作る分類感度が高い)。
最短距離 分類感度低く鎖状クラスター作る傾向がある。
最長距離法 空間拡散起こり分類感度は高い。
メディアン 最近隣法と最遠隣法の折衷法である。クラスター間の距離の逆転生じ場合がある。
重心 クラスター間の距離の逆転生じ場合がある。
可変 パラメータ(β)の選択によって空間濃縮拡散制御できるので,バラエティー富んだ結果生み出す。βとしては1未満の値を指定する。βの値が1に近いほど空間濃縮が起こる(分類感度低くなる)。負の値をとれば,空間拡散が起こる(分類感度高くなる)。一般に,-0.25〜0の範囲の値を与えるのがよいといわれている。

 変数のクラスター分析を行う場合には,変数 i と変数 j の相関係数を rij としたとき,2 変数間の距離が次式で表されることになるので,個体のクラスター分析と同じよう取り扱うことができる。
クラスター分析

クラスター分析

読み方くらすたーぶんせき
【英】:cluster analysis

概要

解析対象すべてをいくつかの群に分けて, 何らかの基準にしたがって似ているものが同じ群に入るように分類する方法. 群をクラスターというが, クラスター集合は, 対象すべてからなる集合の分割に当たる. クラスターの数と分割対す評価基準与えられているとき, 最適な分割求めるのは, 組合せ最適化問題になる. 対象1個ずつの状態から, 選ばれ2つクラスター結合することを繰りかえす階層的方法多数提案されている.

詳説

 現象解析基本操作一つである分類を行う方法関わる探索的方法論総称がクラスター分析である. 博物学, 考古学, 生物分類学, 計量心理学など適用分野きわめて多岐にわたることが特徴である. 欧州圏では, 自動分類法(automatic classification)と呼称することが多い. 分類操作とは, 解析対象すべてをいくつかの群に分けて, 何らかの基準に従って似ているものが同じ群に入っているようにすることである. 群をクラスターという.

 すべての対象集合\Omega\, とする. これの部分集合集合\Gamma=\{C_1,\ C_2,\ \ldots,\ C_p\}\, が, 次の条件を満たすとき,\Omega\, 分割という.

(1) C_1\cup C_2\cup\ldots\cup C_p=\Omega\,

(2) C_i\cap C_j=\phi\ (i\neq j)\,

このとき, C_k(k=1,\ 2,\ \ldots,\ p)\, クラスターであり,クラスター分析の目的は, 与えられ基準に従って, 最適な分割求めることである.

[分類結果の評価]

 分類の目的によって, 分類結果, すなわち, 得られ分割\Gamma\, 対す評価基準定まる. これは, 目的関数示される. たとえば, 同じクラスター属す対象は, お互いに類似しているほうがよいのであれば, 同じクラスター属する2対象間の類似度最小値目的関数にして, それをできるだけ大きくすればよいし, 異なクラスター属す対象は, できるだけ類似してないほうよければ, 異なクラスター属する2対象間の類似度最大値目的関数にして, それをできるだけ小さくすればよい.

[分類手法]

 分類方法は, いろいろ提案されているが, 大きく, 階層的分類法 (hierarchical classification) と非階層的分類法に分けられ, 階層的分類法は, さらに, 凝集型 (agglomerative type) と分枝型 (divisible type) に分けられる.

1.階層的分類

 予め定めたクラスターp\, に対して, 最適な分割求め方法. 最適な分割求めるのは, 組み合わせ最適化問題一種であるから, 0-1変数整数計画問題定式化すれば, そのアルゴリズム利用できる.

2. 階層的分類

 クラスターp\, が予め定められない場合分類段階的にクラスター併合または細分によって変化することが考えられる場合には, 階層的分類望まれる.

 (1) 凝集階層的分類

 対象一つずつ分かれている状態から出発して, 最も近い二つクラスター併合することを繰り返して, クラスターp\, を1ずつ減少させていく方法である. 予め, 二つクラスターA,\ B\, 間の距離\delta(A,\ B)\, 定めておく必要がある. 手順の概要は, 次のとおりである. ここで, 対象の数をn\, とし, p\, 最終値をp_{\min}\, とする.

 手順1. p=n,\ \Gamma=\{\{1\}, \{2\}, \ldots, \{n\}\}\, とし, すべてのi, \ j\, に対して, \delta(\{i\},\ \{j\})\, 計算する.

 手順2. \Gamma\, 含まれるクラスターの対の中で, 距離が最小であるものを求めて, それらを結合し, p\, の値を1だけ小さくする. p=p_{\min}\, であれば, 終了する.

 手順3. 結合してできたクラスター他のクラスターの間の距離を計算して手順2にもどる.

 クラスター間の距離の定義は, いろいろ考えられているが, 対象i\, 対象j\, の間の距離d_{ij}\, を予め定めておいて, それを用いて表すことが多い. 対象間距離は, 対象いくつかの特性測定値から計算される. 特性単位がすべて揃っているときは, ユークリッド距離使えるが, 一般には, 重み付きユークリッド距離用いる. 類似度アンケート回答一致程度から, 距離を定めることもある. このときは, 類似度などが大きくなるほど, 距離が小さくなるようにする.

 対象間距離を用いクラスター間の距離の定義代表的なもの挙げる.



\delta(A,\ B)=\min\{d_{ij}|i\in A,\ j\in B\}\,


\delta(A,\ B)=\max\{d_{ij}|i\in A,\ j\in B\}\,


\delta(A,\ B)=\sum_{i\in A, j\in B} d_{ij}/(\mathrm{car}(A)\times \mathrm{car}(B))\,


ここで, {\rm car}(S)\, は, 集合S\, 要素数を表す. 上から順に, 最短距離, 最長距離, 群間平均距離という. 手順1で, \delta(\{i\}, \{j\})\, 計算しなければいけないが, 対象間距離を用いるときは, \delta(\{i\}, \{j\})= d_{ij}\, となる.

 凝集方法では, クラスター間の距離の定義によって, 分類結果異な可能性がある. そこで, クラスター間の距離の定義対応して, 方法に名称が付けられている. 最短距離, 最長距離, 群間平均距離を用いるときは, それぞれ最短距離法, 最長距離法, 群間平均距離法という. 最短距離法の別名としては, 最近隣法, 単連結法などがあり, 最長距離法の別名には, 最遠隣法, 完全連結法などがある. なお, 最短距離法は, 最小木問題クラスカル法に当たる. 多くクラスター間の距離を統一的に表わす距離が定義されていて, それを用い凝集方法組み合わせ方法(combinatorial method)と呼んでいる [6].

 凝集方法は, ある一つp\, の値に対す分割求め場合でも, 非常に少ない計算量でよい解を求めアルゴリズムである. 一般的には, 与えられ目的関数に対して, いつも良い分割与えクラスター間の距離の定義存在しないから, 定義を変えていろいろな分割求めて, それらの中から最も良いものを選べばよいが, 異なクラスター属する2対象間の距離の最小値, すなわち, 最短距離最大にする場合は, 最短距離法で常に最適解得られる. 結合していく過程結合する二つクラスター間の距離は, 樹形図 (dendrogram) で示される.

 (2) 分枝階層的分類

 凝集型とは逆に, 全対象一つクラスターにした状態から出発して, クラスター分割繰り返すことにより, トップダウン階層分類を行う. 逐次二分割方式が多いが, 三つ以上に分割できる方式もある. 時間経過とともに進化して分岐してきたものの分類には適しているが, 凝集型に比べると, はるかに計算量増える.



参考文献

[1] 奥野忠一, 久米均, 芳賀敏郎, 吉澤正, 『多変量解析法(改訂版)』, 日科技連出版, 1981.

[2] 大隅昇, L. ルバール他, 『記述的多変量解析法』, 日科技連出版社, 1994.

[3] M. R. Anderberg, Cluster Analysis for Applications, Academic Press, 1973.

[4] T. S. Arthanari and Y. Dodge, Mathematical Programming in Statistics, John-Wiley and Sons, 1981.

[5] B. Everitt, Cluster Analysis, 3rd edn., Edward Arnold, 1993.

[6] G. N. Lance and W. T. Williams, "A General Theory of Classificatory Sorting Strategies 1 - Hierarchical System," Computer Journal, 9 (1967), 373-380.


データ・クラスタリング

(クラスター分析 から転送)

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2020/07/20 15:24 UTC 版)

クラスタリング (: clustering)、クラスタ解析(クラスタかいせき)、クラスター分析(クラスターぶんせき)は、データ解析手法(特に多変量解析手法)の一種。教師なしデータ分類手法、つまり与えられたデータを外的基準なしに自動的に分類する手法。また、そのアルゴリズム






「データ・クラスタリング」の続きの解説一覧

「クラスター分析」の例文・使い方・用例・文例

Weblio日本語例文用例辞書はプログラムで機械的に例文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。


英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「クラスター分析」の関連用語

クラスター分析のお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



クラスター分析のページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
デジタル大辞泉デジタル大辞泉
(C)Shogakukan Inc.
株式会社 小学館
JERICHO CONSULTINGJERICHO CONSULTING
Copyright (C) 2024by Jericho Consulting Co.,Ltd. All Rights Reserved.
JERICHO CONSULTINGJERICHO CONSULTING
Copyright (C) 2024by Jericho Consulting Co.,Ltd. All Rights Reserved.
統計学用語辞典統計学用語辞典
Copyright (C) 2024 統計学用語辞典 All rights reserved.
日本オペレーションズ・リサーチ学会日本オペレーションズ・リサーチ学会
Copyright (C) 2024 (社)日本オペレーションズ・リサーチ学会 All rights reserved.
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアのデータ・クラスタリング (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。
Tanaka Corpusのコンテンツは、特に明示されている場合を除いて、次のライセンスに従います:
 Creative Commons Attribution (CC-BY) 2.0 France.
この対訳データはCreative Commons Attribution 3.0 Unportedでライセンスされています。
浜島書店 Catch a Wave
Copyright © 1995-2024 Hamajima Shoten, Publishers. All rights reserved.
株式会社ベネッセコーポレーション株式会社ベネッセコーポレーション
Copyright © Benesse Holdings, Inc. All rights reserved.
研究社研究社
Copyright (c) 1995-2024 Kenkyusha Co., Ltd. All rights reserved.
日本語WordNet日本語WordNet
日本語ワードネット1.1版 (C) 情報通信研究機構, 2009-2010 License All rights reserved.
WordNet 3.0 Copyright 2006 by Princeton University. All rights reserved. License
日外アソシエーツ株式会社日外アソシエーツ株式会社
Copyright (C) 1994- Nichigai Associates, Inc., All rights reserved.
「斎藤和英大辞典」斎藤秀三郎著、日外アソシエーツ辞書編集部編
EDRDGEDRDG
This page uses the JMdict dictionary files. These files are the property of the Electronic Dictionary Research and Development Group, and are used in conformance with the Group's licence.

©2024 GRAS Group, Inc.RSS