例: 文書分類
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/03/05 20:26 UTC 版)
単純ベイズ分類器を文書分類問題に適用した例を示す。文書群をその内容によって分類する問題であり、例えば、電子メールをスパム (C=0) とスパムでないもの (C=1) に分類する。文書は、単語群としてモデル化できるいくつかのクラスから取り出されるものとする。ここで、文書のi番目の単語 w i {\displaystyle w_{i}} が、クラス C から取り出された文書に出現する(独立な)確率は、次のように書き表せる。 p ( w i | C ) {\displaystyle p(w_{i}\vert C)\,} ただしこの式では、問題をより簡単にするため、単語は文書中にランダムに分布すると仮定している。すなわち、単語の出現確率は、文書の長さ、文書中での他の単語との位置関係、その他の文脈には依存しないものとする。 すると、あるクラスCが与えられた時、文書D が取り出される確率は次のようになる。 p ( D | C ) = ∏ i p ( w i | C ) {\displaystyle p(D\vert C)=\prod _{i}p(w_{i}\vert C)\,} 解きたい問題は、「ある文書 D が、あるクラス C に属する確率」であり、言い換えれば p ( C | D ) {\displaystyle p(C\vert D)\,} の値である。 ここで、定義から(確率空間参照) p ( D | C ) = p ( D ∩ C ) p ( C ) {\displaystyle p(D\vert C)={p(D\cap C) \over p(C)}} かつ p ( C | D ) = p ( D ∩ C ) p ( D ) {\displaystyle p(C\vert D)={p(D\cap C) \over p(D)}} となる。ベイズの定理によれば、尤度関数を使って確率が次のように表される。 p ( C | D ) = p ( C ) p ( D ) p ( D | C ) {\displaystyle p(C\vert D)={p(C) \over p(D)}\,p(D\vert C)} ここで、クラスは S と ¬S の2つしかないと仮定する(例えば、スパムかそうでないか)。 p ( D | S ) = ∏ i p ( w i | S ) {\displaystyle p(D\vert S)=\prod _{i}p(w_{i}\vert S)\,} かつ p ( D | ¬ S ) = ∏ i p ( w i | ¬ S ) {\displaystyle p(D\vert \neg S)=\prod _{i}p(w_{i}\vert \neg S)\,} となる。上記のベイズの結果を使うと、次のようになる。 p ( S | D ) = p ( S ) p ( D ) ∏ i p ( w i | S ) {\displaystyle p(S\vert D)={p(S) \over p(D)}\,\prod _{i}p(w_{i}\vert S)} p ( ¬ S | D ) = p ( ¬ S ) p ( D ) ∏ i p ( w i | ¬ S ) {\displaystyle p(\neg S\vert D)={p(\neg S) \over p(D)}\,\prod _{i}p(w_{i}\vert \neg S)} 一方を他方で割ると、次のようになる。 p ( S | D ) p ( ¬ S | D ) = p ( S ) ∏ i p ( w i | S ) p ( ¬ S ) ∏ i p ( w i | ¬ S ) {\displaystyle {p(S\vert D) \over p(\neg S\vert D)}={p(S)\,\prod _{i}p(w_{i}\vert S) \over p(\neg S)\,\prod _{i}p(w_{i}\vert \neg S)}} これを書き換えると、次の通り。 p ( S | D ) p ( ¬ S | D ) = p ( S ) p ( ¬ S ) ∏ i p ( w i | S ) p ( w i | ¬ S ) {\displaystyle {p(S\vert D) \over p(\neg S\vert D)}={p(S) \over p(\neg S)}\,\prod _{i}{p(w_{i}\vert S) \over p(w_{i}\vert \neg S)}} 従って、確率比率 p(S | D) / p(¬S | D) は、一連の尤度比を使って表される。実際の確率 p(S | D) は、p(S | D) + p(¬S | D) = 1 であることから、容易に log (p(S | D) / p(¬S | D)) から求められる。 これらの比を全て対数にすると、次の式が得られる。 ln p ( S | D ) p ( ¬ S | D ) = ln p ( S ) p ( ¬ S ) + ∑ i ln p ( w i | S ) p ( w i | ¬ S ) {\displaystyle \ln {p(S\vert D) \over p(\neg S\vert D)}=\ln {p(S) \over p(\neg S)}+\sum _{i}\ln {p(w_{i}\vert S) \over p(w_{i}\vert \neg S)}} 統計学では、このような尤度比の対数を使うのが一般的な技法である。この例のような二項分類では、その値はシグモイド曲線を描く(ロジット参照)。 このようにして文書が分類される。 ln p ( S | D ) p ( ¬ S | D ) > 0 {\displaystyle \ln {p(S\vert D) \over p(\neg S\vert D)}>0} なら、その文書はスパムであり、そうでなければスパムではない。
※この「例: 文書分類」の解説は、「単純ベイズ分類器」の解説の一部です。
「例: 文書分類」を含む「単純ベイズ分類器」の記事については、「単純ベイズ分類器」の概要を参照ください。
- 例: 文書分類のページへのリンク