Convolutional sequence to sequence learning

f:id:e4exp:20220117121732p:plain f:id:e4exp:20220117121750p:plain

畳み込みとattnを使って翻訳モデルを提案
- RNNを使わないenc-decで，入力系列を畳み込みでencode，decoderは過去の正解系列の畳み込みとencodeされた文脈の内積attnを適用，次の単語を出力するよう学習．attentionはdecoderの各レイヤで個別に実施する
- enc, decそれぞれの入力系列で埋め込み位置を入力系列に加算するpositional embeddingを使用．改善幅は小さいがperplexity, bleuにおいてenc, decどちらでも効果が見られる
- decoder側の入力は未来時刻の入力を使用しないようにゼロpaddingでmaskする
WMT16 英語ルーマニア語でsota．LSTMベースの先行手法より高いbleuを達成し一桁速い推論速度
decoderよりもencoderの層数を増加すると性能向上することを報告している

学んだことメモ