クラスター分析とは?

Weblio 辞書 > ビジネス > DBM用語 > クラスター分析の意味・解説 

クラスターぶんせき [6] 【クラスター分析】

クラスターは「集団」の意〕

クラスター分析

【英】cluster analysis

クラスターCluster)はもともとはブドウの房の意味。群れ集団集落のこと。住んでいる地域年令性別年収などの人口統計学データ趣味ライフスタイルなどの心理的特徴ベースにして似たようなグループにくくった固まりクラスター表現している。共通し特性によって人々物事グループ分け統計的分析手法。有効な分類軸がわからないデータを、自動的切り口探し出してくれる。顧客行動興味特性から分類し、例えば、ヤッピー(Yuppies)としてクラスター化し、そのクラスターターゲットにしてプロモーションコピーやデザインを行う。クラスター分析の前にクラスター・サンプルCluster Sample)の抽出が必要。顧客リストからテストサンプルを選び出す例えば、10万人から2つの5000サンプル選び出す場合、まず10万人をランダム20グループ分ける。つぎに、その20グループから2つのグループ選択する。もし2つのグループが同じような特徴をもつグループであればサンプル間のリスポンス違いは各グループに送ったプロモーション違いになる。テスト目的合わせて、多段階でテストサンプルを抽出する方法

クラスター分析

【英】cluster analysis

ライフスタイル分析マーケット・セグメンテーションなどに利用されるグルーピング法。多数データもとづいてサンプル変数類別する。こうして得られたグループのことをクラスターとよんでいる。計算技法上は、ツリー・ダイヤグラムを描きながらクラスターまとめてゆく階層方法と、クラスター数を先に決めておいて、その条件下で最適分割を行う非階層方法分けられる。市場多様化し、高度化するにつれて販売計画策定のためには、このグループ化は、重要な作業である。データ・マイニング基本機能でもある。

クラスター分析


 似通った個体あるいは変数グループ化を行うための分析手法である。
 クラスター分析の結果は,図 1 のようなデンドログラム(樹状図)として表現される。
クラスター分析
図 1.クラスター分析の結果として得られるデンドログラム



 個体が似通っているかどうか判定基準としてはいくつかあるが,取り扱いが容易なユークリッド距離を用いる。
 個体のクラスター分析を行う場合には,解析に用いるデータ正規化する場合としない場合では結果がかなり異なことがある。  解析使用する変数異なった単位で表されているときには正規化した方がよいかもしれない。しかし,ある変数決定的性質を持つ場合には,正規化することは他の変数同格取り扱ってしまうことになるので正規化しない方がよいかもしれない。
 n 個の個体について,p 個の変数 Xi1, Xi2, ... , Xip( i = 1,2, ... ,n )があるとする。 初期態として,n 個のクラスターがあるとする(各クラスターは 1 個体ずつを含むと考える)。

表 1.クラスター分析の各種法で距離の再定義において使用されるパラメータ

αa αb β γ 使用される式
最短距離 0.5 0.5 0 -0.5 ( 1 )
最長距離法 0.5 0.5 0 0.5 ( 1 )
メディアン 0.5 0.5 -0.25 0 ( 1 )
重心 na/nc nb/nc -(nanb)/nc2 0 ( 2 )
群平均法 na/nc nb/nc 0 0 ( 2 )
可変 (1-β*)/2 (1-β*)/2 β* 0 ( 2 )
ウォード法 (nx+na)/(nx+nc) (nx+nb)/(nx+nc) -nx/(nx+nc) 0 ( 2 )
  na は,クラスター a に含まれる個体数(データ個数)。nb, nc, nx も同様
β*は1未満任意の
 ( 1 )式または( 2 )式で併合後のユークリッド距離計算するときの定数 αa,αb,β,γ をどのように選ぶかによって,表 1 に示す 7 種類のクラスター分析が行える。
 各手法分類感度は,クラスター融合によって空間拡散される場合に高く,濃縮される場合に低くなる。各手法特徴以下の通りである。
手法 特徴
ウォード法 最も明確なクラスター作る分類感度が高い)。
最短距離 分類感度は低く,鎖状クラスター作る傾向がある。
最長距離法 空間拡散起こり分類感度は高い。
メディアン 最近隣法と最遠隣法の折衷法である。クラスター間の距離の逆転が生じる場合がある。
重心 クラスター間の距離の逆転が生じる場合がある。
可変 パラメータ(β)の選択によって空間濃縮拡散制御できるので,バラエティーに富んだ結果生み出す。βとしては1未満の値を指定する。βの値が1に近いほど空間濃縮が起こる(分類感度が低くなる)。負の値をとれば,空間拡散が起こる(分類感度が高くなる)。一般に,-0.25〜0の範囲の値を与えるのがよいといわれている。

 変数のクラスター分析を行う場合には,変数 i と変数 j の相関係数を rij としたとき,2 変数間の距離が次式で表されることになるので,個体のクラスター分析と同じように取り扱うことができる。
クラスター分析

クラスター分析

読み方くらすたーぶんせき
【英】:cluster analysis

概要

解析対象すべてをいくつかの群に分けて, 何らかの基準にしたがって似ているものが同じ群に入るように分類する方法. 群をクラスターというが, クラスター集合は, 対象すべてからなる集合の分割に当たる. クラスターの数と分割対す評価基準与えられているとき, 最適分割求めるのは, 組合せ最適化問題になる. 対象1個ずつの状態から, 選ばれた2つのクラスター結合することを繰りかえす階層方法多数提案されている.

詳説

 現象解析基本操作一つである分類を行う方法関わる探索方法論総称がクラスター分析である. 博物学, 考古学, 生物分類学, 計量心理学など適用分野きわめて多岐にわたることが特徴である. 欧州圏では, 自動分類法(automatic classification)と呼称することが多い. 分類操作とは, 解析対象すべてをいくつかの群に分けて, 何らかの基準に従って似ているものが同じ群に入っているようにすることである. 群をクラスターという.

 すべての対象集合\Omega\, とする. これの部分集合集合\Gamma=\{C_1,\ C_2,\ \ldots,\ C_p\}\, が, 次の条件を満たすとき,\Omega\, 分割という.

(1) C_1\cup C_2\cup\ldots\cup C_p=\Omega\,

(2) C_i\cap C_j=\phi\ (i\neq j)\,

このとき, C_k(k=1,\ 2,\ \ldots,\ p)\, クラスターであり,クラスター分析の目的は, 与えられた基準に従って, 最適分割求めることである.

[分類結果評価]

 分類目的によって, 分類結果, すなわち, 得られた分割\Gamma\, 対す評価基準定まる. これは, 目的関数で示される. たとえば, 同じクラスター属す対象は, お互いに類似しているほうがよいのであれば, 同じクラスター属する2対象間の類似度の最小値目的関数にして, それをできるだけ大きくすればよいし, 異なクラスター属す対象は, できるだけ類似ていないほうがよければ, 異なクラスター属する2対象間の類似度の最大値目的関数にして, それをできるだけ小さくすればよい.

[分類手法]

 分類方法は, いろいろ提案されているが, 大きく, 階層分類法 (hierarchical classification) と非階層分類法分けられ, 階層分類法は, さらに, 凝集型 (agglomerative type) と分枝型 (divisible type) に分けられる.

1. 非階層分類法

 予め定めクラスターp\, に対して, 最適分割求め方法. 最適分割求めるのは, 組み合わせ最適化問題一種であるから, 0-1変数整数計画問題定式化すれば, そのアルゴリズム利用できる.

2. 階層分類法

 クラスターp\, が予め定められない場合分類段階的にクラスター併合または細分によって変化することが考えられる場合には, 階層分類が望まれる.

 (1) 凝集階層分類法

 対象一つずつ分かれている状態から出発して, 最も近い二つクラスター併合することを繰り返して, クラスターp\, を1ずつ減少させていく方法である. 予め, 二つクラスターA,\ B\, 間の距離\delta(A,\ B)\, 定めておく必要がある. 手順概要は, 次のとおりである. ここで, 対象の数をn\, とし, p\, 最終値をp_{\min}\, とする.

 手順1. p=n,\ \Gamma=\{\{1\}, \{2\}, \ldots, \{n\}\}\, とし, すべてのi, \ j\, に対して, \delta(\{i\},\ \{j\})\, 計算する.

 手順2. \Gamma\, 含まれるクラスターの対の中で, 距離が最小であるものを求めて, それらを結合し, p\, の値を1だけ小さくする. p=p_{\min}\, であれば, 終了する.

 手順3. 結合してできたクラスターと他のクラスターの間の距離を計算して手順2にもどる.

 クラスター間の距離の定義は, いろいろ考えられているが, 対象i\, 対象j\, の間の距離d_{ij}\, を予め定めておいて, それを用いて表すことが多い. 対象間距離は, 対象いくつかの特性測定値から計算される. 特性単位がすべて揃っているときは, ユークリッド距離使えるが, 一般には, 重み付きユークリッド距離を用いる. 類似度やアンケート回答一致程度から, 距離を定めることもある. このときは, 類似度などが大きくなるほど, 距離が小さくなるようにする.

 対象間距離を用いるクラスター間の距離の定義の代表的なものを挙げる.



\delta(A,\ B)=\min\{d_{ij}|i\in A,\ j\in B\}\,


\delta(A,\ B)=\max\{d_{ij}|i\in A,\ j\in B\}\,


\delta(A,\ B)=\sum_{i\in A, j\in B} d_{ij}/(\mathrm{car}(A)\times \mathrm{car}(B))\,


ここで, {\rm car}(S)\, は, 集合S\, 要素数を表す. 上から順に, 最短距離, 最長距離, 群間平均距離という. 手順1で, \delta(\{i\}, \{j\})\, 計算なければいけないが, 対象間距離を用いるときは, \delta(\{i\}, \{j\})= d_{ij}\, となる.

 凝集方法では, クラスター間の距離の定義によって, 分類結果異な可能性がある. そこで, クラスター間の距離の定義に対応して, 方法に名称が付けられている. 最短距離, 最長距離, 群間平均距離を用いるときは, それぞれ最短距離法, 最長距離法, 群間平均距離法という. 最短距離法の別名としては, 最近隣法, 単連結法などがあり, 最長距離法の別名には, 最遠隣法, 完全連結法などがある. なお, 最短距離法は, 最小木問題クラスカル法に当たる. 多くクラスター間の距離を統一的表わす距離が定義されていて, それを用いる凝集方法組み合わせ方法(combinatorial method)と呼んでいる [6].

 凝集方法は, ある一つp\, の値に対す分割求め場合でも, 非常に少ない計算量でよい解を求めアルゴリズムである. 一般的には, 与えられた目的関数に対して, いつも良い分割与えクラスター間の距離の定義は存在しないから, 定義を変えていろいろな分割求めて, それらの中から最も良いものを選べばよいが, 異なクラスター属する2対象間の距離の最小値, すなわち, 最短距離最大にする場合は, 最短距離法で常に最適解が得られる. 結合していく過程結合する二つクラスター間の距離は, 樹形図 (dendrogram) で示される.

 (2) 分枝階層分類法

 凝集型とは逆に, 全対象一つクラスターにした状態から出発して, クラスター分割繰り返すことにより, トップダウン階層分類を行う. 逐次二分割方式が多いが, 三つ以上に分割できる方式もある. 時間経過とともに進化して分岐してきたものの分類には適しているが, 凝集型に比べると, はるかに計算量増える.



参考文献

[1] 奥野忠一, 久米均, 芳賀敏郎, 吉澤正, 『多変量解析法(改訂版)』, 日科技連出版, 1981.

[2] 大隅昇, L. ルバール他, 『記述的多変量解析法』, 日科技連出版社, 1994.

[3] M. R. Anderberg, Cluster Analysis for Applications, Academic Press, 1973.

[4] T. S. Arthanari and Y. Dodge, Mathematical Programming in Statistics, John-Wiley and Sons, 1981.

[5] B. Everitt, Cluster Analysis, 3rd edn., Edward Arnold, 1993.

[6] G. N. Lance and W. T. Williams, "A General Theory of Classificatory Sorting Strategies 1 - Hierarchical System," Computer Journal, 9 (1967), 373-380.


データ・クラスタリング

(クラスター分析 から転送)

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2019/06/23 09:55 UTC 版)

クラスタリング (: clustering)、クラスタ解析(クラスタかいせき)、クラスター分析(クラスターぶんせき)は、データ解析手法(特に多変量解析手法)の一種。教師なしデータ分類手法、つまり与えられたデータを外的基準なしに自動的に分類する手法。また、そのアルゴリズム






「データ・クラスタリング」の続きの解説一覧


英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「クラスター分析」の関連用語

クラスター分析のお隣キーワード

   

英語⇒日本語
日本語⇒英語
   
検索ランキング



クラスター分析のページの著作権
Weblio 辞書情報提供元は参加元一覧にて確認できます。

  
三省堂三省堂
Copyright (C) 2001-2019 Sanseido Co.,Ltd. All rights reserved.
株式会社 三省堂三省堂 Web Dictionary
JERICHO CONSULTINGJERICHO CONSULTING
Copyright (C) 2019by Jericho Consulting Co.,Ltd. All Rights Reserved.
JERICHO CONSULTINGJERICHO CONSULTING
Copyright (C) 2019by Jericho Consulting Co.,Ltd. All Rights Reserved.
統計学用語辞典統計学用語辞典
Copyright (C) 2019 統計学用語辞典 All rights reserved.
日本オペレーションズ・リサーチ学会日本オペレーションズ・リサーチ学会
Copyright (C) 2019 (社)日本オペレーションズ・リサーチ学会 All rights reserved.
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアのデータ・クラスタリング (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。

©2019 Weblio RSS