パラメータ評価
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/07/16 02:39 UTC 版)
どのデータマイニングタスクもパラメータの問題がある。どのパラメータも明確な方法でアルゴリズムに影響を与える。DBSCAN では、パラメータ ε および minPts が必要とされる。パラメータはユーザーが指定する必要があるさ。理想的には、ε の値は解くべき問題によって与えられ(たとえば、物理的な距離)、minPts は望む最小クラスターのサイズである。 minPts - 大まかなやり方では、最小の minPts はデータセットの次元 D から引き出され、minPts ≥ D + 1 である。minPts = 1 の低い値は意味を成さない。どの点もそのままクラスタであるからである。minPts ≤ 2 では、結果は single link metric での階層クラスタリングと同じになり、デンドログラム(dendrogram)は高さ ε でカットされる。それゆえ、minPts は少なくとも 3 に選ばれなければならない。しかし、より大きい値はたいていの場合ノイズを持ったデータ集合に対してより有効であり、かなりのクラスタを生じるだろう。データ集合が大きくなれば、minPts の値はより大きく選ばれるべきである。 ε - ε の値は、k距離グラフ を用い、 k = minPts の最近傍への距離をプロットすることで選ばれる。ε が良い値であると、このプロットが強く結ばれている。ε が非常に小さい値に選ばれると、データの大部分はクラスタリングされない。一方、大きな値が選ばれると、クラスタは併合され、オブジェクトの大多数は同一のクラスタにあることになる。一般に、小さな ε 値が好ましく、大まかにいって点の小片がお互いにこの距離内にあるべきである。 距離関数 - 距離関数の選択は ε の選択に密に結合しており、結果に大きな影響を与える。一般に、パラメータ ε が選ばれる前に、データセットに対する類似度の合理的な尺度を最初に特定することが必要である。 OPTICS は、パフォーマンスに大部分の影響を与える最大値で ε を置換した、DBSCAN の一般化と見なされる。minPts は、発見される最小のクラスターサイズとなる。このアルゴリズムは DBSCAN よりもずっとパラメータ化しやすい一方で、結果を使うのにはもうすこし困難がある。たいてい、DBSCAN が生成する単純なデータパーティショニングの代わりに、階層クラスタリングを生成するためである。最近、DBSCAN の元々の著者の一人が DBSCAN と OPTICS を再訪し、階層 DBSCAN (HDBSCAN*)の洗練バージョンを投稿した。これはもはや境界点の考え方をもっていない。
※この「パラメータ評価」の解説は、「DBSCAN」の解説の一部です。
「パラメータ評価」を含む「DBSCAN」の記事については、「DBSCAN」の概要を参照ください。
- パラメータ評価のページへのリンク