例: 文書分類とは? わかりやすく解説

例: 文書分類

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/03/05 20:26 UTC 版)

単純ベイズ分類器」の記事における「例: 文書分類」の解説

単純ベイズ分類器文書分類問題適用した例を示す。文書群その内容によって分類する問題であり、例えば、電子メールスパム (C=0) とスパムでないもの (C=1) に分類する文書は、単語群としてモデル化できるいくつかのクラスから取り出されるものとする。ここで、文書のi番目の単語 w i {\displaystyle w_{i}} が、クラス C から取り出され文書出現する独立な)確率は、次のように書き表せる。 p ( w i | C ) {\displaystyle p(w_{i}\vert C)\,} ただしこの式では、問題をより簡単にするため、単語文書中にランダムに分布する仮定している。すなわち、単語出現確率は、文書長さ文書中での他の単語との位置関係その他の文脈には依存しないものとする。 すると、あるクラスC与えられた時、文書D が取り出される確率次のうになる。 p ( D | C ) = ∏ i p ( w i | C ) {\displaystyle p(D\vert C)=\prod _{i}p(w_{i}\vert C)\,} 解きたい問題は、「ある文書 D が、あるクラス C属す確率」であり、言い換えれば p ( C | D ) {\displaystyle p(C\vert D)\,} の値である。 ここで、定義から(確率空間参照) p ( D | C ) = p ( D ∩ C ) p ( C ) {\displaystyle p(D\vert C)={p(D\cap C) \over p(C)}} かつ p ( C | D ) = p ( D ∩ C ) p ( D ) {\displaystyle p(C\vert D)={p(D\cap C) \over p(D)}} となる。ベイズの定理によれば尤度関数使って確率次のように表される。 p ( C | D ) = p ( C ) p ( D ) p ( D | C ) {\displaystyle p(C\vert D)={p(C) \over p(D)}\,p(D\vert C)} ここで、クラスは S と ¬S の2つしかない仮定する例えば、スパムそうでないか)。 p ( D | S ) = ∏ i p ( w i | S ) {\displaystyle p(D\vert S)=\prod _{i}p(w_{i}\vert S)\,} かつ p ( D | ¬ S ) = ∏ i p ( w i | ¬ S ) {\displaystyle p(D\vert \neg S)=\prod _{i}p(w_{i}\vert \neg S)\,} となる。上記ベイズ結果を使うと、次のうになる。 p ( S | D ) = p ( S ) p ( D )i p ( w i | S ) {\displaystyle p(S\vert D)={p(S) \over p(D)}\,\prod _{i}p(w_{i}\vert S)} p ( ¬ S | D ) = p ( ¬ S ) p ( D )i p ( w i | ¬ S ) {\displaystyle p(\neg S\vert D)={p(\neg S) \over p(D)}\,\prod _{i}p(w_{i}\vert \neg S)} 一方他方で割ると、次のうになる。 p ( S | D ) p ( ¬ S | D ) = p ( S )i p ( w i | S ) p ( ¬ S ) ∏ i p ( w i | ¬ S ) {\displaystyle {p(S\vert D) \over p(\neg S\vert D)}={p(S)\,\prod _{i}p(w_{i}\vert S) \over p(\neg S)\,\prod _{i}p(w_{i}\vert \neg S)}} これを書き換えると、次の通り。 p ( S | D ) p ( ¬ S | D ) = p ( S ) p ( ¬ S ) ∏ i p ( w i | S ) p ( w i | ¬ S ) {\displaystyle {p(S\vert D) \over p(\neg S\vert D)}={p(S) \over p(\neg S)}\,\prod _{i}{p(w_{i}\vert S) \over p(w_{i}\vert \neg S)}} 従って、確率比率 p(S | D) / p(¬S | D) は、一連の尤度比使って表される実際確率 p(S | D) は、p(S | D) + p(¬S | D) = 1 であることから、容易に log (p(S | D) / p(¬S | D)) から求められる。 これらの比を全て対数にすると、次の式が得られるln ⁡ p ( S | D ) p ( ¬ S | D ) = ln ⁡ p ( S ) p ( ¬ S ) + ∑ i ln ⁡ p ( w i | S ) p ( w i | ¬ S ) {\displaystyle \ln {p(S\vert D) \over p(\neg S\vert D)}=\ln {p(S) \over p(\neg S)}+\sum _{i}\ln {p(w_{i}\vert S) \over p(w_{i}\vert \neg S)}} 統計学では、このような尤度比対数を使うのが一般的な技法である。この例のような二項分類では、その値はシグモイド曲線を描く(ロジット参照)。 このようにして文書分類されるln ⁡ p ( S | D ) p ( ¬ S | D ) > 0 {\displaystyle \ln {p(S\vert D) \over p(\neg S\vert D)}>0} なら、その文書スパムであり、そうでなければスパムではない。

※この「例: 文書分類」の解説は、「単純ベイズ分類器」の解説の一部です。
「例: 文書分類」を含む「単純ベイズ分類器」の記事については、「単純ベイズ分類器」の概要を参照ください。

ウィキペディア小見出し辞書の「例: 文書分類」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。 お問い合わせ



英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「例: 文書分類」の関連用語

例: 文書分類のお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



例: 文書分類のページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
Text is available under GNU Free Documentation License (GFDL).
Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、Wikipediaの単純ベイズ分類器 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

©2025 GRAS Group, Inc.RSS