畳み込みベースの翻訳モデル ConvS2S
Convolutional sequence to sequence learning
- https://arxiv.org/abs/1705.03122
- 2017 ICML
- 畳み込みとattnを使って翻訳モデルを提案
- RNNを使わないenc-decで,入力系列を畳み込みでencode,decoderは過去の正解系列の畳み込みとencodeされた文脈の内積attnを適用,次の単語を出力するよう学習.attentionはdecoderの各レイヤで個別に実施する
- enc, decそれぞれの入力系列で埋め込み位置を入力系列に加算するpositional embeddingを使用.改善幅は小さいがperplexity, bleuにおいてenc, decどちらでも効果が見られる
- decoder側の入力は未来時刻の入力を使用しないようにゼロpaddingでmaskする
- WMT16 英語ルーマニア語でsota.LSTMベースの先行手法より高いbleuを達成し一桁速い推論速度
- decoderよりもencoderの層数を増加すると性能向上することを報告している