Attention Is All You Need

f:id:e4exp:20211229185515p:plain

f:id:e4exp:20211229185554p:plain

RNNもCNNも使用せずattentionによりWMT2014英->独翻訳で28.4BLEU達成．前のsotaから2ポイント改善
RNNは自己回帰のため1サンプル内での並列化は不可能(かつ系列長が異なるサンプルのbatch化も困難)．提案手法は1サンプル内では全部のtokenを並列に処理するため高速
self attentionでは入力をQuery, Key, Valueに変換し，Qの一つのベクトルと,K全部の内積を計算, 正規化してsoftmaxしてVの重要度を示す重みを求める．(実際はQを行列としてその全部のベクトルに対してこれを計算)
- 単一のattention計算の代わりにQ,K,Vをそれぞれ小さい次元に分割してattn計算し，結果を結合して射影するmulti head attentionを導入すると有益(newstest2013の英->独翻訳で検証)
- RNNではtoken入力の順番が位置情報を提供しているが，提案手法では位置エンコーディングとしてtokenに位置に応じたサイン/コサイン関数ベースの値を加算する．learnableな埋め込みを使用した実験も行い，sinのほうが長いシーケンスに外挿するとしている
長期依存性をモデリングする効率に関して，自己アテンション層は定数の逐次実行操作で全ての位置を結ぶが、リカレント層はO(n)の逐次実行操作を必要など．提案手法が効率的

学んだことメモ