マルチヘッド アテンション
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/06/01 21:44 UTC 版)
「Transformer (機械学習モデル)」の記事における「マルチヘッド アテンション」の解説
( W Q , W K , W V ) {\displaystyle \left(W_{Q},W_{K},W_{V}\right)} 行列の 1 セットがアテンションヘッドと呼ばれ、Transformer モデルの各層には複数のアテンションヘッドがある。 1つのアテンションヘッドは各トークンに関連するトークンに注意を向けるが、複数のアテンションヘッドがあると、モデルは様々な定義の「関連性」に対して同様の操作を行うことができる。トランスフォーマーの多くのアテンションヘッドは、人間が解釈可能な関連性関係をエンコードしていることが研究によって示された。たとえば、主に次の単語に注意を向けるアテンションヘッド、主に動詞から直接目的語に注意を向けるアテンションヘッドなどがある。 Transformer モデルには複数のアテンションヘッドがあるため、表層レベルからセマンティックまで、多くのレベルと関連性関係の型をとらえることができる。 マルチヘッドアテンション層からの複数の出力は、連結されてフィードフォワードニューラルネットワーク層に渡される。 M u l t i H e a d ( Q , K , V ) = C o n c a t ( h e a d 1 , … , h e a d h ) W O w h e r e h e a d i = A t t e n t i o n ( Q W i Q , K W i W , V W i V ) {\displaystyle {\begin{aligned}\mathrm {MultiHead} (Q,K,V)=\mathrm {Concat} \left(\mathrm {head} _{1},\dots ,\mathrm {head} _{h}\right)\,W^{O}\\\mathrm {where} \quad \mathrm {head} _{i}=\mathrm {Attention} (QW_{i}^{Q},KW_{i}^{W},VW_{i}^{V})\end{aligned}}}
※この「マルチヘッド アテンション」の解説は、「Transformer (機械学習モデル)」の解説の一部です。
「マルチヘッド アテンション」を含む「Transformer (機械学習モデル)」の記事については、「Transformer (機械学習モデル)」の概要を参照ください。
- マルチヘッド アテンションのページへのリンク