部分集合選択
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2015/10/15 17:12 UTC 版)
部分集合選択では、特徴集合の部分集合がまとまりとして適切かどうかを評価する。部分集合選択のアルゴリズムは、ラッパー、フィルター、埋め込みの三種に分類できる。ラッパーは探索アルゴリズムを用いて可能な特徴の空間を探索し、それぞれの部分集合でモデルを走らせて評価を行う。ラッパーは計算量的にコストが高く、モデルの過剰適合を起こす危険性がある。フィルターは探索を行う点でラッパーに似ているが、モデルを走らせるかわりにより単純なフィルターを用いて評価を行う。埋め込み型の方法はモデルごとに特化したものであり、モデルに埋め込まれている。 よく用いられる探索のアプローチは貪欲な山登り法である。山登り法では、候補となる特徴部分集合を評価し、部分集合の一部を書き換えてそれが古い部分集合を改善している限り手続きを繰り返す。部分集合の評価では、特徴部分集合をスコアづけする指標が必要となる。総当たり探索は通常実用的でないため、実装者が停止点を定め、その停止点までに見つかったうち最高のスコアを持つ特徴部分集合を満足できる特徴部分集合として採用する。停止の規準は、アルゴリズムによって異なるが、部分集合のスコアがしきい値を超える、プログラムの実行時間が規定値を超える、などである。 探索(組合せ最適化)のアプローチには、 総当たり 最良優先探索 焼きなまし法 遺伝的アルゴリズム 貪欲前向き選択 貪欲後ろ向き選択 などがある。 フィルターの規準として、分類問題では相関と相互情報量の二つがよく用いられる。これらのスコアは候補となる特徴(もしくは特徴部分集合)と求める出力カテゴリの間で計算される。 フィルターの規準としてはほかに、次のものがある: クラスの分離性誤分類確率 クラス内距離 確率分布の距離 エントロピー 一貫性に基づく特徴選択 相関に基づく特徴選択
※この「部分集合選択」の解説は、「特徴選択」の解説の一部です。
「部分集合選択」を含む「特徴選択」の記事については、「特徴選択」の概要を参照ください。
- 部分集合選択のページへのリンク