学んだことメモ

長文に強い相対位置埋め込みを持つモデル RoFormer

DeepLearning Transformer 論文読み NLP

RoFormer: Enhanced Transformer with Rotary Position Embedding

https://arxiv.org/abs/2104.09864
2021/04

f:id:e4exp:20211229152913p:plain

相対位置埋め込みを回転行列で表現したtransformer．各tokenに対する積として実行し，意味上は各tokenベクトルを回転させる効果になる
トークン間積の長期的減衰に有利な特性を持つ(おそらく，近いトークン同士よりも遠いトークン同士の場合にベクトルに与える変化が少なくなる?)．この性質は他の相対位置埋め込みでも成り立つ
系列長が長くなると(1,024で実験)，絶対位置埋め込みのBERT等よりもテスト性能が向上．中国語の法律事例マッチデータセットCAIL2019-SCMでの実験．
この手法が長文に対して他のモデルより優れた性能を示す理由は明らかではない