マルチヘッド アテンションとは? わかりやすく解説

Weblio 辞書 > 辞書・百科事典 > ウィキペディア小見出し辞書 > マルチヘッド アテンションの意味・解説 

マルチヘッド アテンション

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/06/01 21:44 UTC 版)

Transformer (機械学習モデル)」の記事における「マルチヘッド アテンション」の解説

( W Q , W K , W V ) {\displaystyle \left(W_{Q},W_{K},W_{V}\right)} 行列1 セットがアテンションヘッドと呼ばれTransformer モデル各層には複数のアテンションヘッドがある。 1つのアテンションヘッドは各トークン関連するトークン注意を向けるが、複数のアテンションヘッドがあると、モデル様々な定義の「関連性に対して同様の操作を行うことができる。トランスフォーマー多くのアテンションヘッドは、人間解釈可能な関連性関係をエンコードしていることが研究によって示された。たとえば、主に次の単語注意を向けるアテンションヘッド、主に動詞から直接目的語注意を向けるアテンションヘッドなどがある。 Transformer モデルには複数のアテンションヘッドがあるため、表層レベルからセマンティックまで、多くレベル関連性関係の型をとらえることができる。 マルチヘッドアテンション層からの複数出力は、連結されてフィードフォワードニューラルネットワーク層に渡されるM u l t i H e a d ( Q , K , V ) = C o n c a t ( h e a d 1 , … , h e a d h ) W O w h e r e h e a d i = A t t e n t i o n ( Q W i Q , K W i W , V W i V ) {\displaystyle {\begin{aligned}\mathrm {MultiHead} (Q,K,V)=\mathrm {Concat} \left(\mathrm {head} _{1},\dots ,\mathrm {head} _{h}\right)\,W^{O}\\\mathrm {where} \quad \mathrm {head} _{i}=\mathrm {Attention} (QW_{i}^{Q},KW_{i}^{W},VW_{i}^{V})\end{aligned}}}

※この「マルチヘッド アテンション」の解説は、「Transformer (機械学習モデル)」の解説の一部です。
「マルチヘッド アテンション」を含む「Transformer (機械学習モデル)」の記事については、「Transformer (機械学習モデル)」の概要を参照ください。

ウィキペディア小見出し辞書の「マルチヘッド アテンション」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。 お問い合わせ



英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「マルチヘッド アテンション」の関連用語

1
16% |||||

2
14% |||||

3
10% |||||

マルチヘッド アテンションのお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



マルチヘッド アテンションのページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
Text is available under GNU Free Documentation License (GFDL).
Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、WikipediaのTransformer (機械学習モデル) (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

©2025 GRAS Group, Inc.RSS