出現行列
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/07/29 04:33 UTC 版)
LSA では、各文書における用語の出現を表した文書-単語マトリクスが使われる。これは各行が各単語に対応し、各列が各文書に対応した疎行列である。この行列の各成分の重み付けには tf-idf (term frequency–inverse document frequency) が用いられることが多い。この場合、行列の各成分はその文書でその単語が使われた回数に比例した値であり、文書全体での出現回数が少ない単語はその相対的重要性を反映するために強く重み付けされる。 この行列は標準意味モデルでも一般的だが、必ずしも行列として明確に表現される必要性はなく、行列として数学的に利用するとは限らない。 LSA はこの出現行列を用語と何らかの概念の関係および概念と文書間の関係に変換する。したがって、用語と文書は概念を介して間接的に関連付けられる。
※この「出現行列」の解説は、「潜在意味解析」の解説の一部です。
「出現行列」を含む「潜在意味解析」の記事については、「潜在意味解析」の概要を参照ください。
- 出現行列のページへのリンク