マルチヘッドアテンションとは何？わかりやすく解説 Weblio辞書

索引トップ用語の索引ランキング

マルチヘッドアテンション

出典: フリー百科事典『ウィキペディア（Wikipedia）』 (2022/06/01 21:44 UTC 版)

「Transformer (機械学習モデル)」の記事における「マルチヘッドアテンション」の解説

( W Q , W K , W V ) {\displaystyle \left(W_{Q},W_{K},W_{V}\right)} 行列の 1 セットがアテンションヘッドと呼ばれ、Transformer モデルの各層には複数のアテンションヘッドがある。 1つのアテンションヘッドは各トークンに関連するトークンに注意を向けるが、複数のアテンションヘッドがあると、モデルは様々な定義の「関連性」に対して同様の操作を行うことができる。トランスフォーマーの多くのアテンションヘッドは、人間が解釈可能な関連性関係をエンコードしていることが研究によって示された。たとえば、主に次の単語に注意を向けるアテンションヘッド、主に動詞から直接目的語に注意を向けるアテンションヘッドなどがある。 Transformer モデルには複数のアテンションヘッドがあるため、表層レベルからセマンティックまで、多くのレベルと関連性関係の型をとらえることができる。マルチヘッドアテンション層からの複数の出力は、連結されてフィードフォワードニューラルネットワーク層に渡される。 M u l t i H e a d ( Q , K , V ) = C o n c a t ( h e a d 1 , … , h e a d h ) W O w h e r e h e a d i = A t t e n t i o n ( Q W i Q , K W i W , V W i V ) {\displaystyle {\begin{aligned}\mathrm {MultiHead} (Q,K,V)=\mathrm {Concat} \left(\mathrm {head} _{1},\dots ,\mathrm {head} _{h}\right)\,W^{O}\\\mathrm {where} \quad \mathrm {head} _{i}=\mathrm {Attention} (QW_{i}^{Q},KW_{i}^{W},VW_{i}^{V})\end{aligned}}}

※この「マルチヘッドアテンション」の解説は、「Transformer (機械学習モデル)」の解説の一部です。
「マルチヘッドアテンション」を含む「Transformer (機械学習モデル)」の記事については、「Transformer (機械学習モデル)」の概要を参照ください。

ウィキペディア小見出し辞書の「マルチヘッドアテンション」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。お問い合わせ。

>> 「マルチヘッドアテンション」を含む用語の索引
マルチヘッドアテンションのページへのリンク

マルチヘッドアテンションとは？わかりやすく解説

マルチヘッドアテンション

「マルチヘッドアテンション」の関連用語


	Text is available under GNU Free Documentation License (GFDL). Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、WikipediaのTransformer (機械学習モデル) (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

マルチヘッド アテンションとは？ わかりやすく解説

マルチヘッド アテンション

急上昇のことば

「マルチヘッド アテンション」の関連用語

マルチヘッドアテンションとは？わかりやすく解説

マルチヘッドアテンション

「マルチヘッドアテンション」の関連用語