シンプソン係数とは? わかりやすく解説

Weblio 辞書 > コンピュータ > IT用語辞典 > シンプソン係数の意味・解説 

シンプソン係数

読み方シンプソンけいすう
【英】Simpson's Coefficient

シンプソン係数とは、自然言語処理における係数一種で、XというキーワードとYというキーワードが同じページや同じ文書内で出現する共起する場合頻度強さ表現する指標として使用される係数のことである。主にWebなどの大規模文書において採用されている。

シンプソン係数は、次のような式で表される

シンプソン係数

例えば、検索エンジン使って「りんご」「みかん」と検索した場合、仮に「りんご」というキーワードの検索結果が5,830,000件、「みかん」というキーワードの検索結果が5,370,000件、「りんご みかん」という検索条件検索結果は1,970,000ヒットしたとする。この場合、「りんご」と「みかん」に関するシンプソン係数は、以下のように求められる

simpson(X,Y) = 1970000/min(5830000, 5370000) = 0.366852886

なお、一般的には、シンプソン係数が高ければ高いほど、両方のキーワードの相関関係が強いと推定されるが、シンプソン係数は、比較される一方の語の検索結果がもう一方の語と比べて極端に少な場合には、関係性がさほど強くないキーワード同士でも高い値が出てしまう、という一面持っているこのため閾値設けて制限をかけた上で利用したり、得られ実験結果実際人間の目見て相互に関係性の強いキーワード同士であるかどうかを、検証したりすることで、シンプソン係数だけでは十分に加味できていない側面補完することも多い。




英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

シンプソン係数のお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



シンプソン係数のページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
IT用語辞典バイナリIT用語辞典バイナリ
Copyright © 2005-2024 Weblio 辞書 IT用語辞典バイナリさくいん。 この記事は、IT用語辞典バイナリシンプソン係数の記事を利用しております。

©2024 GRAS Group, Inc.RSS