階数の低減
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/07/29 04:33 UTC 版)
出現行列を構築後、LSAでは文書-単語マトリクスの行列の階数を低減した近似を行う必要がある場合がある。ただし、近似に伴う精度の低下を考慮に入れなくてはならない。この近似には以下のような理由がある。 元の文書-単語マトリクスがコンピュータのメモリ上に格納するには大きすぎる場合。この場合、階数を低減した行列は「近似」と解釈される。 元の文書-単語マトリクスにノイズが多い場合。その用語の逸話的出現を除去するなど。この場合の近似行列は「ノイズ除去」行列と解釈される。 元の文書-単語マトリクスが理想的な文書-単語マトリクスよりも疎らな場合。すなわち、元の行列には文書で実際に使われている単語のみカウントされているが、各文書の関連する単語に興味がある場合など。つまり、類義性を考慮した行列がほしい場合。 階数の低減の結果、いくつかの次元が統合され、複数の単語に依存するようになる。 {(car), (truck), (flower)} --> {(1.3452 * car + 0.2828 * truck), (flower)} 階数低減が類似の意味を持つ用語に対応する次元を統合することで、類義性問題がある程度解消される。また、多義語の成分が複数の類義語に分配されて統合されるなら、多義性の問題もある程度解消される。逆に、他の方向の成分は単に消去されるか、最悪でも意図した意味よりも成分として小さくなる。
※この「階数の低減」の解説は、「潜在意味解析」の解説の一部です。
「階数の低減」を含む「潜在意味解析」の記事については、「潜在意味解析」の概要を参照ください。
- 階数の低減のページへのリンク