順位付け手法とは? わかりやすく解説

順位付け手法

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/09/13 15:08 UTC 版)

Okapi BM25」の記事における「順位付け手法」の解説

BM25は、bag-of-wordsを拡張した手法であり、文書内のクエリ単語同士相互関係ではなく文書におけるクエリ単語出現頻度基づいて文書集合を順位付けする。 単語 q 1 , . . . , q n {\displaystyle q_{1},...,q_{n}} を含むクエリQが与えられたとき、文書DのBM25スコアは、 score ( D , Q ) = ∑ i = 1 n IDF ( q i ) ⋅ f ( q i , D ) ⋅ ( k 1 + 1 ) f ( q i , D ) + k 1 ⋅ ( 1 − b + b ⋅ | D | avgdl ) , {\displaystyle {\text{score}}(D,Q)=\sum _{i=1}^{n}{\text{IDF}}(q_{i})\cdot {\frac {f(q_{i},D)\cdot (k_{1}+1)}{f(q_{i},D)+k_{1}\cdot \left(1-b+b\cdot {\frac {|D|}{\text{avgdl}}}\right)}},} と定義される。このとき、 f ( q i , D ) {\displaystyle f(q_{i},D)} を文書Dにおける単語出現頻度、 | D | {\displaystyle |D|} を文書Dの単語数、avgdlを文書集合の平均単語数とする。 k 1 {\displaystyle k_{1}} およびbは任意のパラメータであり、 k 1 ∈ [ 1.2 , 2.0 ] {\displaystyle k_{1}\in [1.2,2.0]} 、 b = 0.75 {\displaystyle b=0.75} とされることが多い。また、単語 q i {\displaystyle q_{i}} のidf値は、 IDF ( q i ) = log ⁡ N − n ( q i ) + 0.5 n ( q i ) + 0.5 , {\displaystyle {\text{IDF}}(q_{i})=\log {\frac {N-n(q_{i})+0.5}{n(q_{i})+0.5}},} と定義される。このとき、Nを全文書数、 n ( q i ) {\displaystyle n(q_{i})} を q i {\displaystyle q_{i}} を含む文書数とする。また、 IDF ( q i ) {\displaystyle {\text{IDF}}(q_{i})} には複数の定義があり、上記定義式その1つである。BM25では、二項独立モデルBinary Independence Model英語版))に基づいて導出された。 ただし、上記定義式では、半分以上文書集合に出現する単語idf値が負になるため、ほぼ同一2つ文書について半分以上文書集合に出現する単語を含む文書含まない文書とでは、後者BM25スコア大きくなってしまうことがある。そのため、実用上は、 idf値の最小値を0とし、一般的な用語を完全に無視する idf値の最小値定数 ϵ {\displaystyle \epsilon } とし、一般的な用語を完全に無視することを避けつつ、影響を減らす idfが必ず正となる定義式変える といった処理がなされる

※この「順位付け手法」の解説は、「Okapi BM25」の解説の一部です。
「順位付け手法」を含む「Okapi BM25」の記事については、「Okapi BM25」の概要を参照ください。

ウィキペディア小見出し辞書の「順位付け手法」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。 お問い合わせ



英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「順位付け手法」の関連用語

順位付け手法のお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



順位付け手法のページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
Text is available under GNU Free Documentation License (GFDL).
Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、WikipediaのOkapi BM25 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

©2025 GRAS Group, Inc.RSS