クエリ用語の重み付け
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2019/11/14 06:27 UTC 版)
「Binary Independence Model」の記事における「クエリ用語の重み付け」の解説
バイナリクエリおよび,文書とクエリとの間の類似性関数としてドット積が与えられたとする.このとき検索効率が高くなるようにクエリ内の用語に重みを割り当てることが問題となる。 p i {\displaystyle p_{i}} が関連文書がi番目の語句を持つ確率であり, q i {\displaystyle q_{i}} は同様に非関連文書がi番目の語句を持つ確率であるとする.最初にBIMを紹介したYu and Salton は、 i番目の単語の重みを Y i = p i ∗ ( 1 − q i ) ( 1 − p i ) ∗ q i {\displaystyle Y_{i}={\frac {p_{i}*(1-q_{i})}{(1-p_{i})*q_{i}}}} p i {\displaystyle p_{i}} に対して単調増加し, q i {\displaystyle q_{i}} に対して単調に増加する関数として定義した.したがって、 Y i {\displaystyle Y_{i}} より高い Y j {\displaystyle Y_{j}} 、用語の重みiタームjのそれよりも高くなります。 YuとSalton は、クエリ用語へのそのような重み割り当てが、クエリ用語が等しく重み付けされている場合よりも優れた検索効率をもたらすことを明らかにした。 RobertsonとSpärckJones は、 i番目の単語が l o g Y i {\displaystyle logY_{i}} の重みを割り当てられている場合、 log Y i {\displaystyle \log Y_{i}} Binary Independence Assumptionの下で最適な検索効果が得られることを明らかにした。 Binary Independence Modelは、YuとSaltonによって導入された。 Binary Independence Modelという名前は、RobertsonとSpärckJonesによって作られたものである。
※この「クエリ用語の重み付け」の解説は、「Binary Independence Model」の解説の一部です。
「クエリ用語の重み付け」を含む「Binary Independence Model」の記事については、「Binary Independence Model」の概要を参照ください。
- クエリ用語の重み付けのページへのリンク