「クラスター分析」の意味や使い方わかりやすく解説 Weblio辞書

デジタル大辞泉

索引トップ用語の索引ランキング凡例

クラスター‐ぶんせき【クラスター分析】

読み方：くらすたーぶんせき

統計学で、異なる性質のものが集まっているデータを、互いに似た性質をもつグループに分類する分析手法。多変量解析をはじめ、さまざまな統計学的手法が知られる。クラスター解析。データクラスタリング。クラスタリング。

DBM用語辞典

索引トップ用語の索引ランキング

クラスター分析

【英】cluster analysis

クラスター（Cluster）はもともとはブドウの房の意味。群れ、集団、集落のこと。住んでいる地域、年令・性別・年収などの人口統計学的データ、趣味・ライフスタイルなどの心理的特徴をベースにして似たようなグループにくくった固まりをクラスターと表現している。共通した特性によって人々や物事をグループに分ける統計的分析手法。有効な分類軸がわからないデータを、自動的に切り口を探し出してくれる。顧客の行動や興味の特性から分類し、例えば、ヤッピー（Yuppies）としてクラスター化し、そのクラスターをターゲットにしてプロモーションコピーやデザインを行う。クラスター分析の前にクラスター・サンプル（Cluster Sample）の抽出が必要。顧客リストからテストサンプルを選び出す。例えば、10万人から2つの5000 サンプルを選び出す場合、まず10万人をランダムに 20 グループに分ける。つぎに、その20 グループから2つのグループを選択する。もし2つのグループが同じような特徴をもつグループであれば、サンプル間のリスポンスの違いは各グループに送ったプロモーションの違いになる。テスト目的に合わせて、多段階でテストサンプルを抽出する方法。

流通用語辞典

索引トップ用語の索引ランキング

クラスター分析

【英】cluster analysis

ライフスタイル分析やマーケット・セグメンテーションなどに利用されるグルーピング法。多数のデータにもとづいて、サンプルや変数を類別する。こうして得られたグループのことをクラスターとよんでいる。計算技法上は、ツリー・ダイヤグラムを描きながらクラスターをまとめてゆく階層的方法と、クラスター数を先に決めておいて、その条件下で最適分割を行う非階層的方法に分けられる。市場が多様化し、高度化するにつれて、販売計画の策定のためには、このグループ化は、重要な作業である。データ・マイニングの基本機能でもある。

統計学用語辞典

索引トップ用語の索引ランキング

クラスター分析

　似通った個体あるいは変数のグループ化を行うための分析手法である。
　クラスター分析の結果は，図 1 のようなデンドログラム（樹状図）として表現される。

図 1．クラスター分析の結果として得られるデンドログラム

　個体が似通っているかどうかの判定基準としてはいくつかあるが，取り扱いが容易なユークリッド距離を用いる。
　個体のクラスター分析を行う場合には，解析に用いるデータを正規化する場合としない場合では結果がかなり異なることがある。　解析に使用する変数が異なった単位で表されているときには，正規化した方がよいかもしれない。しかし，ある変数が決定的な性質を持つ場合には，正規化することは他の変数と同格に取り扱ってしまうことになるので正規化しない方がよいかもしれない。
　n 個の個体について，p 個の変数 Xi1， Xi2， ... ， Xip（ i = 1，2， ... ，n ）があるとする。初期状態として，n 個のクラスターがあるとする（各クラスターは 1 個体ずつを含むと考える）。

第 1 段階
 クラスター間のユークリッド平方距離dij² を計算する。
第 2 段階
ユークリッド平方距離の最も近いクラスターを併合して，1 つのクラスターとする。
クラスター a とクラスター b が併合されてクラスター c が作られるとする。
dab，dxa，dxb を，クラスター a とクラスター b が併合される前の各クラスター間の距離としたとき，併合後のクラスター c とクラスター x（ x ≠ a,x ≠ b ）との距離は（ 1 ），（ 2 ）式で表される。　……（ 1 ）
　……（ 2 ）
αa，αb，β，γ は表 1 に示すような定数
第 3 段階
2 個のクラスターが 1 個のクラスターにまとめられたので，総クラスター数が 1 個減る。
クラスター数が 1 になるまで第 2 段階を繰返す。

表 1．クラスター分析の各種法で距離の再定義において使用されるパラメータ
	αa	αb	β	γ	使用される式
最短距離法	0.5	0.5	0	-0.5	（ 1 ）
最長距離法	0.5	0.5	0	0.5	（ 1 ）
メディアン法	0.5	0.5	-0.25	0	（ 1 ）
重心法	na/nc	nb/nc	-(nanb)/nc²	0	（ 2 ）
群平均法	na/nc	nb/nc	0	0	（ 2 ）
可変法	(1-β*)/2	(1-β*)/2	β*	0	（ 2 ）
ウォード法	(nx+na)/(nx+nc)	(nx+nb)/(nx+nc)	-nx/(nx+nc)	0	（ 2 ）

　　na は，クラスター a に含まれる個体数（データの個数）。nb, nc, nx も同様
β*は1未満の任意の値
　（ 1 ）式または（ 2 ）式で併合後のユークリッド距離を計算するときの定数 αa，αb，β，γ をどのように選ぶかによって，表 1 に示す 7 種類のクラスター分析が行える。
　各手法の分類感度は，クラスターの融合によって空間が拡散される場合に高く，濃縮される場合に低くなる。各手法の特徴は以下の通りである。

手法	特徴
ウォード法	最も明確なクラスターを作る（分類感度が高い）。
最短距離法	分類感度は低く，鎖状のクラスターを作る傾向がある。
最長距離法	空間の拡散が起こり，分類感度は高い。
メディアン法	最近隣法と最遠隣法の折衷法である。クラスター間の距離の逆転が生じる場合がある。
重心法	クラスター間の距離の逆転が生じる場合がある。
可変法	パラメータ（β）の選択によって空間の濃縮・拡散を制御できるので，バラエティーに富んだ結果を生み出す。βとしては1未満の値を指定する。βの値が1に近いほど空間の濃縮が起こる（分類感度が低くなる）。負の値をとれば，空間の拡散が起こる（分類感度が高くなる）。一般に，-0.25〜0の範囲の値を与えるのがよいといわれている。

　変数のクラスター分析を行う場合には，変数 i と変数 j の相関係数を rij としたとき，2 変数間の距離が次式で表されることになるので，個体のクラスター分析と同じように取り扱うことができる。

OR事典

索引トップ用語の索引ランキングカテゴリー

クラスター分析

読み方：くらすたーぶんせき
【英】：cluster analysis

概要

解析の対象すべてをいくつかの群に分けて, 何らかの基準にしたがって似ているものが同じ群に入るように分類する方法. 群をクラスターというが, クラスターの集合は, 対象すべてからなる集合の分割に当たる. クラスターの数と分割に対する評価基準が与えられているとき, 最適な分割を求めるのは, 組合せ最適化問題になる. 対象1個ずつの状態から, 選ばれた2つのクラスターを結合することを繰りかえす階層的方法が多数提案されている.

詳説

　現象解析の基本操作の一つである分類を行う方法に関わる探索的方法論の総称がクラスター分析である. 博物学, 考古学, 生物分類学, 計量心理学など適用分野がきわめて多岐にわたることが特徴である. 欧州圏では, 自動分類法(automatic classification)と呼称することが多い. 分類操作とは, 解析の対象すべてをいくつかの群に分けて, 何らかの基準に従って似ているものが同じ群に入っているようにすることである. 群をクラスターという.

　すべての対象の集合を $\Omega\,$ とする. これの部分集合の集合 $\Gamma=\{C_1,\ C_2,\ \ldots,\ C_p\}\,$ が, 次の条件を満たすとき, $\Omega\,$ の分割という.

(1) $C_1\cup C_2\cup\ldots\cup C_p=\Omega\,$

(2) $C_i\cap C_j=\phi\ (i\neq j)\,$

このとき, $C_k(k=1,\ 2,\ \ldots,\ p)\,$ がクラスターであり,クラスター分析の目的は, 与えられた基準に従って, 最適な分割を求めることである.

[分類結果の評価]

　分類の目的によって, 分類結果, すなわち, 得られた分割 $\Gamma\,$ に対する評価基準が定まる. これは, 目的関数で示される. たとえば, 同じクラスターに属する対象は, お互いに類似しているほうがよいのであれば, 同じクラスターに属する2対象間の類似度の最小値を目的関数にして, それをできるだけ大きくすればよいし, 異なるクラスターに属する対象は, できるだけ類似していないほうがよければ, 異なるクラスターに属する2対象間の類似度の最大値を目的関数にして, それをできるだけ小さくすればよい.

[分類手法]

　分類方法は, いろいろ提案されているが, 大きく, 階層的分類法 (hierarchical classification) と非階層的分類法に分けられ, 階層的分類法は, さらに, 凝集型 (agglomerative type) と分枝型 (divisible type) に分けられる.

1. 非階層的分類法

　予め定めたクラスター数 $p\,$ に対して, 最適な分割を求める方法. 最適な分割を求めるのは, 組み合わせ最適化問題の一種であるから, 0-1 変数の整数計画問題に定式化すれば, そのアルゴリズムが利用できる.

2. 階層的分類法

　クラスター数 $p\,$ が予め定められない場合や分類が段階的にクラスターの併合または細分によって変化することが考えられる場合には, 階層的分類が望まれる.

　(1) 凝集型階層的分類法

　対象が一つずつ分かれている状態から出発して, 最も近い二つのクラスターを併合することを繰り返して, クラスター数 $p\,$ を1ずつ減少させていく方法である. 予め, 二つのクラスター $A,\ B\,$ 間の距離 $\delta(A,\ B)\,$ を定めておく必要がある. 手順の概要は, 次のとおりである. ここで, 対象の数を $n\,$ とし, $p\,$ の最終値を $p_{\min}\,$ とする.

　手順 1. $p=n,\ \Gamma=\{\{1\}, \{2\}, \ldots, \{n\}\}\,$ とし, すべての $i, \ j\,$ に対して, $\delta(\{i\},\ \{j\})\,$ を計算する.

　手順2. $\Gamma\,$ に含まれるクラスターの対の中で, 距離が最小であるものを求めて, それらを結合し, $p\,$ の値を1だけ小さくする. $p=p_{\min}\,$ であれば, 終了する.

　手順3. 結合してできたクラスターと他のクラスターの間の距離を計算して手順2にもどる.

　クラスター間の距離の定義は, いろいろ考えられているが, 対象 $i\,$ と対象 $j\,$ の間の距離 $d_{ij}\,$ を予め定めておいて, それを用いて表すことが多い. 対象間距離は, 対象のいくつかの特性の測定値から計算される. 特性の単位がすべて揃っているときは, ユークリッド距離が使えるが, 一般には, 重み付きユークリッド距離を用いる. 類似度やアンケートの回答の一致の程度から, 距離を定めることもある. このときは, 類似度などが大きくなるほど, 距離が小さくなるようにする.

　対象間距離を用いるクラスター間の距離の定義の代表的なものを挙げる.

$\delta(A,\ B)=\min\{d_{ij}|i\in A,\ j\in B\}\,$

$\delta(A,\ B)=\max\{d_{ij}|i\in A,\ j\in B\}\,$

$\delta(A,\ B)=\sum_{i\in A, j\in B} d_{ij}/(\mathrm{car}(A)\times \mathrm{car}(B))\,$

ここで, ${\rm car}(S)\,$ は, 集合 $S\,$ の要素数を表す. 上から順に, 最短距離, 最長距離, 群間平均距離という. 手順1で, $\delta(\{i\}, \{j\})\,$ を計算しなければいけないが, 対象間距離を用いるときは, $\delta(\{i\}, \{j\})= d_{ij}\,$ となる.

　凝集型方法では, クラスター間の距離の定義によって, 分類結果が異なる可能性がある. そこで, クラスター間の距離の定義に対応して, 方法に名称が付けられている. 最短距離, 最長距離, 群間平均距離を用いるときは, それぞれ最短距離法, 最長距離法, 群間平均距離法という. 最短距離法の別名としては, 最近隣法, 単連結法などがあり, 最長距離法の別名には, 最遠隣法, 完全連結法などがある. なお, 最短距離法は, 最小木問題のクラスカル法に当たる. 多くのクラスター間の距離を統一的に表わす距離が定義されていて, それを用いる凝集型方法を組み合わせ的方法(combinatorial method)と呼んでいる [6].

　凝集型方法は, ある一つの $p\,$ の値に対する分割を求める場合でも, 非常に少ない計算量でよい解を求めるアルゴリズムである. 一般的には, 与えられた目的関数に対して, いつも良い分割を与えるクラスター間の距離の定義は存在しないから, 定義を変えていろいろな分割を求めて, それらの中から最も良いものを選べばよいが, 異なるクラスターに属する2対象間の距離の最小値, すなわち, 最短距離を最大にする場合は, 最短距離法で常に最適解が得られる. 結合していく過程と結合する二つのクラスター間の距離は, 樹形図 (dendrogram) で示される.

　(2) 分枝型階層的分類法

　凝集型とは逆に, 全対象を一つのクラスターにした状態から出発して, クラスターの分割を繰り返すことにより, トップダウンに階層分類を行う. 逐次二分割方式が多いが, 三つ以上に分割できる方式もある. 時間経過とともに進化して分岐してきたものの分類には適しているが, 凝集型に比べると, はるかに計算量が増える.

参考文献

[1] 奥野忠一, 久米均, 芳賀敏郎, 吉澤正, 『多変量解析法(改訂版)』, 日科技連出版, 1981.

[2] 大隅昇, L. ルバール他, 『記述的多変量解析法』, 日科技連出版社, 1994.

[3] M. R. Anderberg, Cluster Analysis for Applications, Academic Press, 1973.

[4] T. S. Arthanari and Y. Dodge, Mathematical Programming in Statistics, John-Wiley and Sons, 1981.

[5] B. Everitt, Cluster Analysis, 3rd edn., Edward Arnold, 1993.

[6] G. N. Lance and W. T. Williams, "A General Theory of Classificatory Sorting Strategies 1 - Hierarchical System," Computer Journal, 9 (1967), 373-380.

「OR事典」の他の用語

グラフ･ネットワーク：	PERT TSP多面体クラスカル法クラスター分析グラフシュタイナー最小木ダイクストラ法
統計：	クラスター分析主成分分析判別関数回帰分析因子分析多変量解析多次元尺度構成法
システム分析・意思決定支援・特許：	PDPC アルゴリズム特許クラスター分析ソフトウェア特許ソルバーデータの統計的解析データの論理的解析

ウィキペディア

索引トップ用語の索引ランキングカテゴリー

データ・クラスタリング

(クラスター分析から転送)

出典: フリー百科事典『ウィキペディア（Wikipedia）』 (2020/07/20 15:24 UTC 版)

クラスタリング (英: clustering)、クラスタ解析（クラスタかいせき）、クラスター分析（クラスターぶんせき）は、データ解析手法（特に多変量解析手法）の一種。教師なしデータ分類手法、つまり与えられたデータを外的基準なしに自動的に分類する手法。また、そのアルゴリズム。

位置	平均算術幾何調和中央値分位数順序統計量最頻値階級値
分散	範囲偏差偏差値標準偏差標準誤差変動係数決定係数相関係数自己相関共分散自己共分散分散共分散行列百分率統計的ばらつき
モーメント	分散歪度尖度

カテゴリデータ

頻度
分割表

推計統計学

仮説検定

パラメトリック	t検定ウェルチのt検定 F検定 Z検定二項検定ジャック–ベラ検定シャピロ–ウィルク検定分散分析共分散分析
ノンパラメトリック	ウィルコクソンの符号順位検定マン・ホイットニーのU検定カイ二乗検定イェイツのカイ二乗検定累積カイ二乗検定フィッシャーの正確確率検定尤度比検定 G検定アンダーソン–ダーリング検定コルモゴロフ–スミルノフ検定カイパー検定マンテル検定コクラン・マンテル・ヘンツェルの統計量
その他	帰無仮説対立仮説有意棄却

区間推定

モデル選択基準

その他

ベイズ統計学

確率	主観確率ベイズ確率事前確率事後確率最大事後確率
その他	ベイズ推定ベイズ因子

相関

モデル

回帰

線形	線形回帰リッジ回帰ラッソ回帰エラスティックネット
非線形	k近傍法回帰木ランダムフォレストニューラルネットワークサポートベクター回帰射影追跡回帰
時系列	自己回帰モデル自己回帰移動平均モデル ARCHモデル対移動平均比率法トレンド定常傾向推定共和分構造変化

分類

線形	線形判別分析ロジスティック回帰単純ベイズ分類器単純パーセプトロン線形サポートベクターマシン
二次	二次判別分析
非線形	k近傍法決定木ランダムフォレストニューラルネットワークサポートベクターマシンベイジアンネットワーク隠れマルコフモデル
その他	二項分類多クラス分類第一種過誤と第二種過誤

教師なし学習

クラスタリング	k平均法（k-means++法） DBSCAN
密度推定（英語版）	カーネル密度推定（カーネル）
その他	主成分分析独立成分分析自己組織化写像

統計図表

生存時間分析

生存時間関数
カプラン＝マイヤー推定量（英語版）
ログランク検定（英語版）
故障率
比例ハザードモデル

歴史

統計学歴史
統計学の創始者
確率論と統計学の歩み

応用

出版物

統計学に関する学術誌一覧
重要な出版物

その他

方向統計学

全般

統計学および機械学習の評価指標

カテゴリ

[続きの解説]

「データ・クラスタリング」の続きの解説一覧

1 データ・クラスタリングとは
2 データ・クラスタリングの概要
3 関連項目

Weblio日本語例文用例辞書

索引トップ用語の索引ランキング

「クラスター分析」の例文・使い方・用例・文例

クラスター分析という,統計上の分析方法

Weblio日本語例文用例辞書はプログラムで機械的に例文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。

>> 「クラスター分析」を含む用語の索引
クラスター分析のページへのリンク


	(C)Shogakukan Inc. 株式会社小学館
	Copyright (C） 2024by Jericho Consulting Co.,Ltd. All Rights Reserved.
	Copyright (C） 2024by Jericho Consulting Co.,Ltd. All Rights Reserved.
	Copyright (C) 2024 統計学用語辞典 All rights reserved.
	Copyright (C) 2024 （社）日本オペレーションズ・リサーチ学会 All rights reserved.
	All text is available under the terms of the GNU Free Documentation License. この記事は、ウィキペディアのデータ・クラスタリング (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。
TANAKA Corpus	Tanaka Corpusのコンテンツは、特に明示されている場合を除いて、次のライセンスに従います： Creative Commons Attribution (CC-BY) 2.0 France.
京大-NICT 日英中基本文データ	この対訳データはCreative Commons Attribution 3.0 Unportedでライセンスされています。
	Copyright © 1995-2024 Hamajima Shoten, Publishers. All rights reserved.
	Copyright © Benesse Holdings, Inc. All rights reserved.
	Copyright (c) 1995-2024 Kenkyusha Co., Ltd. All rights reserved.
	日本語ワードネット1.1版 (C) 情報通信研究機構, 2009-2010 License All rights reserved. WordNet 3.0 Copyright 2006 by Princeton University. All rights reserved. License
	Copyright (C) 1994- Nichigai Associates, Inc., All rights reserved. 「斎藤和英大辞典」斎藤秀三郎著、日外アソシエーツ辞書編集部編
	This page uses the JMdict dictionary files. These files are the property of the Electronic Dictionary Research and Development Group, and are used in conformance with the Group's licence.

クラスター分析とは？わかりやすく解説

クラスター‐ぶんせき【クラスター分析】

クラスター分析

クラスター分析

クラスター分析

クラスター分析

概要

詳説

データ・クラスタリング

「クラスター分析」の例文・使い方・用例・文例

「クラスター分析」の関連用語

クラスター分析とは？ わかりやすく解説

クラスター‐ぶんせき【クラスター分析】

クラスター分析

クラスター分析

クラスター分析

クラスター分析

概要

詳説

データ・クラスタリング

「クラスター分析」の例文・使い方・用例・文例

「クラスター分析」の関連用語

クラスター分析とは？わかりやすく解説