Watson Content Analytics での言語サポート

Watson Content Analytics で提供される言語分析機能には、文書の言語の検出とセグメンテーションが含まれます。

文書処理時に、その文書の言語が解析およびトークン化機能により判別され、入力テキストのストリームは個別の単位、つまりトークンに分割されます。

検索時に、ユーザーまたは検索アプリケーションは、照会言語を指定する必要があります。照会ストリングのセグメント化と分析が行われた後、索引が検索されます。

文書および照会ストリングの分析には、以下が含まれます。

基本の非辞書ベースのサポートには、空白によるセグメンテーションと N-gram セグメンテーションがあります。基本的となる非辞書ベースのサポートにはセンテンス・セグメンテーションも含まれます。
辞書ベースの言語サポートには、ワードやセンテンスのセグメンテーションと見出し語分析など、形態学的な分析が含まれます。
言語処理では、形態素解析が行われます。これは、入力テキストの代替表記を作成する処理で、有効なすべての辞書データを、入力テキストにおいて認識されたトークンに関連付けます。拡張言語処理を使用することにより、検索品質は一段と向上します。
ハイブリッド・セグメンテーションのサポートには、非辞書ベースの N-gram セグメンテーションと辞書ベースの形態学的分析が組み合わせて含まれます。このアプローチは、辞書はあるがワードの境界に空白を使用しない、中国語、日本語、韓国語などの言語の文書を含むコレクションの検索の質を向上できます。