畳み込みベースの翻訳モデル ConvS2S

Convolutional sequence to sequence learning

f:id:e4exp:20220117121732p:plain f:id:e4exp:20220117121750p:plain

  • 畳み込みとattnを使って翻訳モデルを提案
    • RNNを使わないenc-decで,入力系列を畳み込みでencode,decoderは過去の正解系列の畳み込みとencodeされた文脈の内積attnを適用,次の単語を出力するよう学習.attentionはdecoderの各レイヤで個別に実施する
    • enc, decそれぞれの入力系列で埋め込み位置を入力系列に加算するpositional embeddingを使用.改善幅は小さいがperplexity, bleuにおいてenc, decどちらでも効果が見られる
    • decoder側の入力は未来時刻の入力を使用しないようにゼロpaddingでmaskする
  • WMT16 英語ルーマニア語でsota.LSTMベースの先行手法より高いbleuを達成し一桁速い推論速度
  • decoderよりもencoderの層数を増加すると性能向上することを報告している