アテンション単位とは? わかりやすく解説

Weblio 辞書 > 辞書・百科事典 > ウィキペディア小見出し辞書 > アテンション単位の意味・解説 

アテンション単位

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/06/01 21:44 UTC 版)

Transformer (機械学習モデル)」の記事における「アテンション単位」の解説

Transformer基本的な構成要素は、Scaled dot-product attention unit表現されるアテンション単位である。 文が Transformer モデル渡されると、アテンション重みすべてのトークン間で同時に計算される。 アテンション単位は、コンテキスト内の全てのトークン埋め込み生成するが、そこにはトークン自体情報だけでなく、他の関連トークンとの関連(についてアテンション重み重み付けされたもの)も含まれる具体的には、Transformerモデルは、各アテンション単位について、クエリ重み行列 W Q {\displaystyle W_{Q}} 、キー重み行列 W K {\displaystyle W_{K}} 、値の重み行列 W V {\displaystyle W_{V}} の 3 つ学習する。 i {\displaystyle i} 番目のトークン対し入力埋め込み x i {\displaystyle x_{i}} に重み行列それぞれ乗じることで、クエリベクトル q i = x i W Q {\displaystyle q_{i}=x_{i}W_{Q}} 、キーベクトル k i = x i W K {\displaystyle k_{i}=x_{i}W_{K}} 、値ベクトル v i = x i W V {\displaystyle v_{i}=x_{i}W_{V}} ができる。アテンション重み a i j {\displaystyle a_{ij}} はクエリベクトル q i {\displaystyle q_{i}} とキーベクトル k j {\displaystyle k_{j}} の内積dot product)として計算され勾配安定化のためにキーベクトル k j {\displaystyle k_{j}} の次元の平方根 d k {\displaystyle {\sqrt {d_{k}}}} で除算され(scaled)、さらに softmax 関数重み合計が 1 に正規化される。 クエリ重み W Q {\displaystyle W_{Q}} とキー重み W K {\displaystyle W_{K}} は異な行列であり、アテンション非対称になりうることに注意が必要である。トークン i {\displaystyle i} がトークン j {\displaystyle j} に関心を向ける(すなわち q ik j {\displaystyle q_{i}\cdot k_{j}} が大きい)場合であってもトークン j {\displaystyle j} がトークン i {\displaystyle i} に注意を向ける (すなわち q jk i {\displaystyle q_{j}\cdot k_{i}} が大きい)とは限らないトークン i {\displaystyle i} へのアテンション単位の出力すべてのトークンの値ベクトル加重和であり、アテンション重み a i j {\displaystyle a_{ij}} (トークン i {\displaystyle i} からそれぞれのトークンへのアテンション)で重み付けされている。 すべてのトークンアテンション計算は、1つ大きな行列計算として表現できる。これは、行列演算高速実行できる行列演算最適化用いたトレーニングに役立つ。行列 Q {\displaystyle Q} 、 K {\displaystyle K} 、 V {\displaystyle V} の i {\displaystyle i} 番目の行は、それぞれ、クエリベクトル q i {\displaystyle q_{i}} 、キーベクトル k i {\displaystyle k_{i}} 、値ベクトル v i {\displaystyle v_{i}} に相当するA t t e n t i o n ( Q , K , V ) = s o f t m a x ( Q K T d k ) V {\displaystyle {\begin{aligned}\mathrm {Attention} (Q,K,V)=\mathrm {softmax} \left({\frac {QK^{\mathrm {T} }}{\sqrt {d_{k}}}}\right)\,V\end{aligned}}}

※この「アテンション単位」の解説は、「Transformer (機械学習モデル)」の解説の一部です。
「アテンション単位」を含む「Transformer (機械学習モデル)」の記事については、「Transformer (機械学習モデル)」の概要を参照ください。

ウィキペディア小見出し辞書の「アテンション単位」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。 お問い合わせ



英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「アテンション単位」の関連用語

1
10% |||||

2
10% |||||

アテンション単位のお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



アテンション単位のページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
Text is available under GNU Free Documentation License (GFDL).
Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、WikipediaのTransformer (機械学習モデル) (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

©2025 GRAS Group, Inc.RSS