stemming
「stemming」の意味・「stemming」とは
「stemming」とは、自然言語処理の一環として行われる、単語をその語幹(stem)に変換する処理のことである。例えば、英語の単語"running"の語幹は"run"となる。このような処理を行うことで、"run"や"runs"、"running"などの異なる形態を持つ単語を同一の語幹"run"として扱うことが可能となる。これにより、文書の検索や分析が容易になる。「stemming」の発音・読み方
「stemming」の発音は、IPA表記では /ˈstɛmɪŋ/ となる。IPAのカタカナ読みでは「ステミング」となり、日本人が発音するカタカナ英語でも「ステミング」と読む。この単語は発音によって意味や品詞が変わる単語ではない。「stemming」の定義を英語で解説
Stemming is the process of reducing inflected (or sometimes derived) words to their word stem, base or root form. For instance, the stem of the word "running" is "run". By performing stemming, it becomes possible to treat words with different forms such as "run", "runs", "running" as the same stem "run", making it easier to search and analyze documents.「stemming」の類語
「stemming」の類語としては、「lemmatization」がある。しかし、「lemmatization」は単語をその語形(lemma)に変換する処理を指し、文脈による単語の変化も考慮に入れる点で「stemming」とは異なる。「stemming」に関連する用語・表現
「stemming」に関連する用語としては、「tokenization」、「stop words」、「n-grams」などがある。「tokenization」は文書を単語などのトークンに分割する処理、「stop words」は分析に不要な単語を除去する処理、「n-grams」は連続するn個の単語を一つの単位とする表現である。「stemming」の例文
1. Stemming is used in the preprocessing stage of text mining.(「stemming」はテキストマイニングの前処理段階で使用される。)2. The stemming algorithm reduces the words "running", "runner", "runs" to the root word "run".(「stemming」のアルゴリズムは、「running」、「runner」、「runs」を語幹の「run」に変換する。)
3. The search engine uses stemming to expand the search terms.(検索エンジンは「stemming」を使用して検索語を拡張する。)
4. Stemming can help to improve the accuracy of information retrieval.(「stemming」は情報検索の精度を向上させるのに役立つ。)
5. The stemming process can sometimes create non-existent words.(「stemming」の処理は時折、存在しない単語を生成することがある。)
6. Lemmatization is a more sophisticated process than stemming.(「lemmatization」は「stemming」よりも洗練された処理である。)
7. Stemming is a common technique in natural language processing.(「stemming」は自然言語処理で一般的な手法である。)
8. The stemming technique is language-dependent.(「stemming」の手法は言語に依存する。)
9. The effectiveness of stemming depends on the specific application.(「stemming」の効果は特定のアプリケーションに依存する。)
10. The Porter's algorithm is a well-known stemming algorithm.(ポーターのアルゴリズムはよく知られた「stemming」のアルゴリズムである。)
- stemmingのページへのリンク