2021-12-29から1日間の記事一覧
Attention Is All You Need https://arxiv.org/abs/1706.03762 2017/06, NeurIPS 2017 RNNもCNNも使用せずattentionによりWMT2014英->独 翻訳で28.4BLEU達成.前のsotaから2ポイント改善 RNNは自己回帰のため1サンプル内での並列化は不可能(かつ系列長が異な…
RoFormer: Enhanced Transformer with Rotary Position Embedding https://arxiv.org/abs/2104.09864 2021/04 相対位置埋め込みを回転行列で表現したtransformer.各tokenに対する積として実行し,意味上は各tokenベクトルを回転させる効果になる トークン間…