データベースの内容
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/07/29 03:32 UTC 版)
「WordNet」の記事における「データベースの内容」の解説
2005年現在、WordNet のデータベースは約11万5000の synset に分類された約15万語を収録し、全体で20万3000の単語と意味の組み合わせがある。データベースは圧縮された状態で約12メガバイトのサイズがある。 WordNet では名詞、動詞、形容詞、副詞を文法上の扱いが異なることから、区別して収蔵している。synset は同義の単語あるいはコロケーション(熟語、連語; コロケーションとは "car pool" のように単語が連なって一つの意味をなしている句)をグループにまとめている。 意味の異なる語句は別の synset に分類される。synset の持つ意味は注釈として以下のような形式で記載されている。(訳注: synset に属する単語が good, right, ripe であり、注釈は括弧の中に記載されている。) good, right, ripe -- (most suitable or right for a particular purpose; "a good time to plant tomatoes"; "the right time to act"; "the time is ripe for great sociological changes") ほとんどの synset は他の synset との意味的な関係が番号によって示されている。この関係の種類は品詞によって異なっており、以下に示す通りになっている。 名詞上位語 (hypernym): すべての X が Y の種類の一であるなら Y は X の上位語である。 下位語 (hyponym): すべての Y が X の種類の一であるなら Y は X の下位語である。 同族語 (coordinate term): X と Y の上位語が同じなら、Y は X の同族語である。 全体語(英語版) (holonym): X が Y の一部であるなら、Y は X の holonym である。 部分語(英語版) (meronym): Y が X の一部であるなら、Y は X の meronym である。 動詞上位語 (hypernym): X という行動が Y の種類の一であるなら動詞 Y は動詞 X の上位語である。(「移動 (movement)」は「旅行 (travel)」の上位語) トロポニム(英語版) (troponym): もし Y という行動が X を行う際の様態であるなら動詞 Y は動詞 X の troponym である。(「片言で話す (lisp)」は「話す (talk)」の troponym) 含意 (entailment): X している場合必然的に Y しているなら動詞 Y は動詞 X に entail(ひきおこすこと)されている。(X:「いびきをかく (snoring)」はY: 眠る (sleeping)」ことによって引きおこされる。) 同族語 (coordinate terms): X と Y の上位語が同じなら、Y は X の同族語である。 形容詞関係のある名詞 動詞の分詞 副詞原形の形容詞 synset に含まれる語句は同じ意味を持った同義語であるため意味的な関係は synset 内全体に適用されるが、単独の語句が他の語句と反意語や派生語などの関係を結ぶこともある。 WordNet には語句の多義性の度合い(polysemy count; 語句が属する synset の数)の情報も含まれている。ある単語がいくつかの synset に属している(いくつかの意味を持っている)場合、ある意味は他の意味よりも一般的に用いられているという関係を持っていることが多い。WordNet ではこのような関係を頻度点 (frequency score) と呼ぶ数値で表している。サンプルの文書の中には全ての単語に synset 等の意味を表すタグを付与しているものがあり、単語が特定の意味で出現している頻度によって頻度点が計算されている。 単語から語幹(root form)や原型(lemma)を推定するための形態素解析ツールはデータベースと一緒に配布されている。屈折形を含む語の場合をのぞいて語幹のみがデータベースに格納されている。
※この「データベースの内容」の解説は、「WordNet」の解説の一部です。
「データベースの内容」を含む「WordNet」の記事については、「WordNet」の概要を参照ください。
- データベースの内容のページへのリンク