cluster analysisとは? わかりやすく解説

Weblio 辞書 > ビジネス > DBM用語 > cluster analysisの意味・解説 

クラスター分析


クラスター分析


クラスター分析

読み方くらすたーぶんせき
【英】:cluster analysis

概要

解析対象すべてをいくつかの群に分けて, 何らかの基準にしたがって似ているものが同じ群に入るように分類する方法. 群をクラスターというが, クラスター集合は, 対象すべてからなる集合の分割に当たる. クラスターの数と分割対す評価基準与えられているとき, 最適な分割求めるのは, 組合せ最適化問題になる. 対象1個ずつの状態から, 選ばれ2つクラスター結合することを繰りかえす階層的方法多数提案されている.

詳説

 現象解析基本操作一つである分類を行う方法関わる探索的方法論総称がクラスター分析である. 博物学, 考古学, 生物分類学, 計量心理学など適用分野きわめて多岐にわたることが特徴である. 欧州圏では, 自動分類法(automatic classification)と呼称することが多い. 分類操作とは, 解析対象すべてをいくつかの群に分けて, 何らかの基準に従って似ているものが同じ群に入っているようにすることである. 群をクラスターという.

 すべての対象集合\Omega\, とする. これの部分集合集合\Gamma=\{C_1,\ C_2,\ \ldots,\ C_p\}\, が, 次の条件を満たすとき,\Omega\, 分割という.

(1) C_1\cup C_2\cup\ldots\cup C_p=\Omega\,

(2) C_i\cap C_j=\phi\ (i\neq j)\,

このとき, C_k(k=1,\ 2,\ \ldots,\ p)\, クラスターであり,クラスター分析の目的は, 与えられ基準に従って, 最適な分割求めることである.

[分類結果の評価]

 分類の目的によって, 分類結果, すなわち, 得られ分割\Gamma\, 対す評価基準定まる. これは, 目的関数示される. たとえば, 同じクラスター属す対象は, お互いに類似しているほうがよいのであれば, 同じクラスター属する2対象間の類似度最小値目的関数にして, それをできるだけ大きくすればよいし, 異なクラスター属す対象は, できるだけ類似してないほうよければ, 異なクラスター属する2対象間の類似度最大値目的関数にして, それをできるだけ小さくすればよい.

[分類手法]

 分類方法は, いろいろ提案されているが, 大きく, 階層的分類法 (hierarchical classification) と非階層的分類法に分けられ, 階層的分類法は, さらに, 凝集型 (agglomerative type) と分枝型 (divisible type) に分けられる.

1.階層的分類

 予め定めたクラスターp\, に対して, 最適な分割求め方法. 最適な分割求めるのは, 組み合わせ最適化問題一種であるから, 0-1変数整数計画問題定式化すれば, そのアルゴリズム利用できる.

2. 階層的分類

 クラスターp\, が予め定められない場合分類段階的にクラスター併合または細分によって変化することが考えられる場合には, 階層的分類望まれる.

 (1) 凝集階層的分類

 対象一つずつ分かれている状態から出発して, 最も近い二つクラスター併合することを繰り返して, クラスターp\, を1ずつ減少させていく方法である. 予め, 二つクラスターA,\ B\, 間の距離\delta(A,\ B)\, 定めておく必要がある. 手順の概要は, 次のとおりである. ここで, 対象の数をn\, とし, p\, 最終値をp_{\min}\, とする.

 手順1. p=n,\ \Gamma=\{\{1\}, \{2\}, \ldots, \{n\}\}\, とし, すべてのi, \ j\, に対して, \delta(\{i\},\ \{j\})\, 計算する.

 手順2. \Gamma\, 含まれるクラスターの対の中で, 距離が最小であるものを求めて, それらを結合し, p\, の値を1だけ小さくする. p=p_{\min}\, であれば, 終了する.

 手順3. 結合してできたクラスター他のクラスターの間の距離を計算して手順2にもどる.

 クラスター間の距離の定義は, いろいろ考えられているが, 対象i\, 対象j\, の間の距離d_{ij}\, を予め定めておいて, それを用いて表すことが多い. 対象間距離は, 対象いくつかの特性測定値から計算される. 特性単位がすべて揃っているときは, ユークリッド距離使えるが, 一般には, 重み付きユークリッド距離用いる. 類似度アンケート回答一致程度から, 距離を定めることもある. このときは, 類似度などが大きくなるほど, 距離が小さくなるようにする.

 対象間距離を用いクラスター間の距離の定義代表的なもの挙げる.



\delta(A,\ B)=\min\{d_{ij}|i\in A,\ j\in B\}\,


\delta(A,\ B)=\max\{d_{ij}|i\in A,\ j\in B\}\,


\delta(A,\ B)=\sum_{i\in A, j\in B} d_{ij}/(\mathrm{car}(A)\times \mathrm{car}(B))\,


ここで, {\rm car}(S)\, は, 集合S\, 要素数を表す. 上から順に, 最短距離, 最長距離, 群間平均距離という. 手順1で, \delta(\{i\}, \{j\})\, 計算しなければいけないが, 対象間距離を用いるときは, \delta(\{i\}, \{j\})= d_{ij}\, となる.

 凝集方法では, クラスター間の距離の定義によって, 分類結果異な可能性がある. そこで, クラスター間の距離の定義対応して, 方法に名称が付けられている. 最短距離, 最長距離, 群間平均距離を用いるときは, それぞれ最短距離法, 最長距離法, 群間平均距離法という. 最短距離法の別名としては, 最近隣法, 単連結法などがあり, 最長距離法の別名には, 最遠隣法, 完全連結法などがある. なお, 最短距離法は, 最小木問題クラスカル法に当たる. 多くクラスター間の距離を統一的に表わす距離が定義されていて, それを用い凝集方法組み合わせ方法(combinatorial method)と呼んでいる [6].

 凝集方法は, ある一つp\, の値に対す分割求め場合でも, 非常に少ない計算量でよい解を求めアルゴリズムである. 一般的には, 与えられ目的関数に対して, いつも良い分割与えクラスター間の距離の定義存在しないから, 定義を変えていろいろな分割求めて, それらの中から最も良いものを選べばよいが, 異なクラスター属する2対象間の距離の最小値, すなわち, 最短距離最大にする場合は, 最短距離法で常に最適解得られる. 結合していく過程結合する二つクラスター間の距離は, 樹形図 (dendrogram) で示される.

 (2) 分枝階層的分類

 凝集型とは逆に, 全対象一つクラスターにした状態から出発して, クラスター分割繰り返すことにより, トップダウン階層分類を行う. 逐次二分割方式が多いが, 三つ以上に分割できる方式もある. 時間経過とともに進化して分岐してきたものの分類には適しているが, 凝集型に比べると, はるかに計算量増える.



参考文献

[1] 奥野忠一, 久米均, 芳賀敏郎, 吉澤正, 『多変量解析法(改訂版)』, 日科技連出版, 1981.

[2] 大隅昇, L. ルバール他, 『記述的多変量解析法』, 日科技連出版社, 1994.

[3] M. R. Anderberg, Cluster Analysis for Applications, Academic Press, 1973.

[4] T. S. Arthanari and Y. Dodge, Mathematical Programming in Statistics, John-Wiley and Sons, 1981.

[5] B. Everitt, Cluster Analysis, 3rd edn., Edward Arnold, 1993.

[6] G. N. Lance and W. T. Williams, "A General Theory of Classificatory Sorting Strategies 1 - Hierarchical System," Computer Journal, 9 (1967), 373-380.


データ・クラスタリング

(cluster analysis から転送)

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2020/07/20 15:24 UTC 版)

ナビゲーションに移動 検索に移動

クラスタリング (: clustering)、クラスタ解析(クラスタかいせき)、クラスター分析(クラスターぶんせき)は、データ解析手法(特に多変量解析手法)の一種。教師なしデータ分類手法、つまり与えられたデータを外的基準なしに自動的に分類する手法。また、そのアルゴリズム

さまざまな手法が提案されているが、大きく分けるとデータの分類が階層的になされる階層型手法と、特定のクラスタ数に分類する非階層的手法とがある。それぞれの代表的な手法としてウォード法K平均法などがある。

関連項目

脚注・出典



英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「cluster analysis」の関連用語

cluster analysisのお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



cluster analysisのページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
JERICHO CONSULTINGJERICHO CONSULTING
Copyright (C) 2025by Jericho Consulting Co.,Ltd. All Rights Reserved.
JERICHO CONSULTINGJERICHO CONSULTING
Copyright (C) 2025by Jericho Consulting Co.,Ltd. All Rights Reserved.
日本オペレーションズ・リサーチ学会日本オペレーションズ・リサーチ学会
Copyright (C) 2025 (社)日本オペレーションズ・リサーチ学会 All rights reserved.
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアのデータ・クラスタリング (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。

©2025 GRAS Group, Inc.RSS