クラスタリングと適合性
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2012/10/09 07:48 UTC 版)
「適合性 (情報検索)」の記事における「クラスタリングと適合性」の解説
C. J. van Rijsbergen が1979年に提唱したクラスタ仮説は、互いに類似している2つの文書は検索において似たような適合性を示すという仮説である。埋め込み類似性空間において、クラスタ仮説は大域的にも局所的にも解釈できる。大域的解釈では、文書間の類似性から導出される潜在的な共通する話題の集合が存在すると仮定する。それらの大域クラスタ群またはその代表群は2つの文書の適合性を関連付けるのに使うことができる(例えば、同じクラスタに属する2つの文書は同じ要求に共に適合するはずである)。このような考え方に基づく手法として以下のものがある。 クラスタに基づく情報検索 クラスタに基づく文書拡張。例えば、潜在意味解析またはその言語モデリング相当物。クラスタが、孤立したものであれ、組み合わせであれ、可能な適合文書の集合を首尾よくモデル化できると保証することは重要である。 Ellen Voorhees が発展させた例がよく知られているが、第二の解釈は文書間の局所的関連性に着目する。局所的解釈は文書の集まりにおいてクラスタの数や大きさをモデル化する必要がなく、複数のスケールでの適合性を考えることが可能である。このような考え方に基づく手法として以下のものがある。 複数クラスタ検索 活性化拡散手法と適合性伝播手法 局所的文書拡張 スコア規則化 局所的手法では、文書類似度の正確で適切な定式化が必要である。
※この「クラスタリングと適合性」の解説は、「適合性 (情報検索)」の解説の一部です。
「クラスタリングと適合性」を含む「適合性 (情報検索)」の記事については、「適合性 (情報検索)」の概要を参照ください。
- クラスタリングと適合性のページへのリンク