検索性能の評価
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/04/13 20:52 UTC 版)
情報検索システムの検索性能の評価を行う。情報検索システムの検索性能は主に正確性と網羅性の質的な観点から適合率(precision;精度ともいう)と再現率(recall)を、処理性能の量的な観点からスループットを測定することにより判定するのが一般的である。適合率は検索結果として得られた集合中にどれだけ検索に適合した文書を含んでいるかという正確性の指標であり、再現率は検索対象としている文書の中で検索結果として適合している文書(正解文書)のうちでどれだけの文書を検索できているかという網羅性の指標である。適合率は、 p = R N {\displaystyle p={\frac {R}{N}}} (R:検索された適合文書の数、N:検索結果の文書の数)によって、再現率は、 r = R C {\displaystyle r={\frac {R}{C}}} (R:検索された適合文書の数、C:全対象文書中の正解文書の数)によって求められる。 適合率をあげれば再現率が下がり、再現率を上げれば適合率が下がる傾向にあるため、F値(F-measure)という尺度もよく用いられる。F値は適合率と再現率の調和平均であり、 F - = 2 ⋅ p ⋅ r p + r = R 1 2 ( N + C ) {\displaystyle {\begin{aligned}F{\textit {-}}&={\frac {2\cdot p\cdot r}{p+r}}\\&={\frac {R}{{\frac {1}{2}}(N+C)}}\\\end{aligned}}} によって求められ、RをNとCの相加平均で割ったものに相当する。F値が高ければ、性能が良いことを意味する。
※この「検索性能の評価」の解説は、「情報検索」の解説の一部です。
「検索性能の評価」を含む「情報検索」の記事については、「情報検索」の概要を参照ください。
- 検索性能の評価のページへのリンク