技術の発展
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/07/29 04:40 UTC 版)
言語学では、単語の埋め込みは、分布意味論の研究分野で議論された。 言語データの大規模なサンプルの分布特性に基づいて、言語項目間の意味的類似性を定量化および分類することを目的としている。 "a word is characterized by the company it keeps"(単語はその周辺によって特徴付けられる)という根本的な考え方は、 ファースによって広められた。 単語をベクトルとして表現する手法は、1960年代における情報検索用のベクトル空間モデルの開発が元になっている。特異値分解を使用して次元数を削減することにより、1980年代後半に潜在的意味分析が導入された。2000年にベンジオらが一連の論文で提供した「ニューラル確率言語モデル」は、「単語の分散表現を学習する」ことにより、コンテキスト内の単語表現の高次元性を低減した。単語の埋め込みには、2つの異なるスタイルがある。1つは、単語が共起単語のベクトルとして表現され、もう1つは、単語が出現する言語コンテキストのベクトルとして表現される。RoweisとSaulは Science で「ローカル線形埋め込み」(LLE)を使用して高次元データ構造の表現を発見する方法を示した。この分野は徐々に発展し、2010 年以降に花開いた。ベクトルの品質とモデルのトレーニング速度に重要な進歩があったことも一因となった。 多くの研究チームが単語の埋め込みに取り組んでいる。2013年、トーマス・ミコロフ率いるGoogleのチームがword2vecという単語埋め込みツールキットを開発した。word2vecを用いると、従来法よりも高速にベクトル空間モデルを訓練することができる。ほとんどの新しい単語埋め込み技術は、従来のn-gramモデルや教師なし学習ではなく、ニューラルネットワークのアーキテクチャに基づいて作られている。
※この「技術の発展」の解説は、「単語の埋め込み」の解説の一部です。
「技術の発展」を含む「単語の埋め込み」の記事については、「単語の埋め込み」の概要を参照ください。
- 技術の発展のページへのリンク