Watson Content Analytics で提供される言語分析機能には、文書の言語の検出とセグメンテーションが含まれます。
文書処理時に、その文書の言語が解析およびトークン化機能により判別され、入力テキストのストリームは個別の単位、つまりトークンに分割されます。
検索時に、ユーザーまたは検索アプリケーションは、照会言語を指定する必要があります。 照会ストリングのセグメント化と分析が行われた後、索引が検索されます。
言語処理では、形態素解析が行われます。これは、 入力テキストの代替表記を作成する処理で、有効なすべての辞書データを、 入力テキストにおいて認識されたトークンに関連付けます。 拡張言語処理を使用することにより、検索品質は一段と向上します。