Attentionのみのモデルで翻訳タスク大幅改善, Transformer

Attention Is All You Need

f:id:e4exp:20211229185515p:plain

f:id:e4exp:20211229185554p:plain

  • RNNもCNNも使用せずattentionによりWMT2014英->独 翻訳で28.4BLEU達成.前のsotaから2ポイント改善
  • RNNは自己回帰のため1サンプル内での並列化は不可能(かつ系列長が異なるサンプルのbatch化も困難).提案手法は1サンプル内では全部のtokenを並列に処理するため高速
  • self attentionでは入力をQuery, Key, Valueに変換し,Qの一つのベクトルと,K全部の内積を計算, 正規化してsoftmaxしてVの重要度を示す重みを求める.(実際はQを行列としてその全部のベクトルに対してこれを計算)
    • 単一のattention計算の代わりにQ,K,Vをそれぞれ小さい次元に分割してattn計算し,結果を結合して射影するmulti head attentionを導入すると有益(newstest2013の英->独 翻訳で検証)
    • RNNではtoken入力の順番が位置情報を提供しているが,提案手法では位置エンコーディングとしてtokenに位置に応じたサイン/コサイン関数ベースの値を加算する.learnableな埋め込みを使用した実験も行い,sinのほうが長いシーケンスに外挿するとしている
  • 長期依存性をモデリングする効率に関して,自己アテンション層は定数の逐次実行操作で全ての位置を結ぶが、リカレント層はO(n)の逐次実行操作を必要など.提案手法が効率的