Transformer_(機械学習モデル)とは？わかりやすく解説

Transformer（トランスフォーマー）は、2017年6月12日にGoogleの研究者等が発表した深層学習モデルであり、主に自然言語処理（NLP）の分野で使用される^[1]。

自然言語などの時系列データを扱って翻訳やテキスト要約などのタスクを行うべく設計されているのは回帰型ニューラルネットワーク（RNN）と同様だが、Transformer の場合、時系列データを逐次処理する必要がないという特徴がある。たとえば、入力データが自然言語の文である場合、文頭から文末までの順に処理する必要がない。このため、Transformer では回帰型ニューラルネットワークよりもはるかに多くの並列化が可能になり、トレーニング時間が短縮される^[1]。

その導入以来、Transformer モデルは自然言語処理の多くの問題に取り組む上で広く選択されており、 Long Short-term Memory（LSTM）などの古い回帰型ニューラルネットワークモデルに取って代わった。Transformer モデルはトレーニング中の並列化を容易にするため、より大きなデータセットでのトレーニングを可能にした。このことが、 BERT （Bidirectional Encoder Representations from Transformers）や GPT （Generative Pre-trained Transformers）などの事前トレーニング済みシステムの開発につながった。これらは、巨大な一般言語データセットでトレーニングされており、特定の言語タスクにファインチューニングできる^[2]^[3]。

背景

トランスフォーマー登場以前には、自然言語処理の分野で注意機構（アテンション）を回帰型ニューラルネットワークモデルに追加するモデルが広く採用されていた。

注意機構

「アテンション (機械学習)」も参照

注意機構（英: attention mechanism）またはアテンション（英: Attention）は系列信号の重み付き統合である。

アテンションの基本は次のモデル式で表される。

${\boldsymbol {z}}=\Sigma w(i){\boldsymbol {v}}(i)$

[1]

[2]

[3]

Transformer_(機械学習モデル)とは？わかりやすく解説