シンプソン係数
【英】Simpson's Coefficient
シンプソン係数とは、自然言語処理における係数の一種で、XというキーワードとYというキーワードが同じページや同じ文書内で出現する(共起する)場合の頻度の強さを表現する指標として使用される係数のことである。主にWebなどの大規模文書において採用されている。
例えば、検索エンジンを使って「りんご」「みかん」と検索した場合、仮に「りんご」というキーワードの検索結果が5,830,000件、「みかん」というキーワードの検索結果が5,370,000件、「りんご みかん」という検索条件の検索結果は1,970,000件ヒットしたとする。この場合、「りんご」と「みかん」に関するシンプソン係数は、以下のように求められる。
simpson(X,Y) = 1970000/min(5830000, 5370000) = 0.366852886
なお、一般的には、シンプソン係数が高ければ高いほど、両方のキーワードの相関関係が強いと推定されるが、シンプソン係数は、比較される一方の語の検索結果がもう一方の語と比べて極端に少ない場合には、関係性がさほど強くないキーワード同士でも高い値が出てしまう、という一面も持っている。このため、閾値を設けて制限をかけた上で利用したり、得られた実験結果を実際人間の目で見て相互に関係性の強いキーワード同士であるかどうかを、検証したりすることで、シンプソン係数だけでは十分に加味できていない側面を補完することも多い。
- シンプソン係数のページへのリンク