言語モデルでEOSを予測すると汎化性能悪化するらしい
The EOS Decision and Length Extrapolation
- paper
- https://arxiv.org/abs/2010.07174
- Benjamin Newman, John Hewitt, Percy Liang, Christopher D. Manning
- github
- データセット
- Dyck-(k, m), SCAN, WMT2009
- project
まとめ
どんなもの?
先行研究と比べてどこがすごい?
- 直接的に同じ研究はないが,SCANデータセット(length cutoff = 22)ではLake and Baroni, 2018のNNモデルが精度20.8に対し,本研究の-EOSは60.1を報告している.なお,同じ設定でEOS予測する+EOSモデルのスコアは18.0で,40ポイント以上の差がある.
技術や手法のキモはどこ?
どうやって有効だと検証した?
- Dyck-(k, m)実験
- Dyck-(k, m)はk種類の括弧が最大ネスト深さmをなすように構成された合成言語データセット.k=2,m=4, 6, 8を使用した.
- testデータは訓練データの10倍長い系列を使用した.hold-out validationでtrainの精度が完璧になるまで訓練する.モデルは5 * mの隠れ状態を持つ1レイヤLSTM
- 評価指標は,modelがbracketを閉じれるとき,すべての閉じ括弧の中で,どのくらいの頻度でmodelが80%以上の確率を正しい閉じ括弧に割り当てたか,というものを使う.
- すべてのケースで-EOSが+EOSを上回った.
- SCAN実験
- ロボットへの命令を示した系列を入力とし,ロボットが命令に答えて動作を行うためのコマンド列を出力するタスク.(walk left twice => TURN_LEFT, WALK, TURN_LEFT, WALK のようなもの)
- token系列の長さでtrain, testをsplitし,22ならtrainは1-22個のトークン,testは22-48個のtokenからなるデータを使うことになる.このsplitを10種類作成し,Lake and Baroni (2018)と同じLSTMを+EOSと-EOSの設定で訓練.greedy decodingでexact matchを評価
- すべてのケースで-EOSが+EOSを上回った.
- LSTM以外にtransformersでも同様の実験を行い,同様の結果を得ている
- 機械翻訳実験
- WMT2009の独->英翻訳を使用する.SCANより複雑なタスク.length=10, 15, 25で3つのsplitを作った
- hiddenの次元が500と1000の2層LSTMでencoder, decoderを作り,+EOSと-EOSを訓練.transformersでも同じ実験を行った
- 評価はBLEUスコア.(window size = 7)
- 末尾の句読点は全て取り除いているが,(文内の)lengthに関する手がかりがEOSトークンの代理として動作するので,+EOSと-EOSで性能差が小さい.-EOSのほうが汎化したと言えるほどではなかった.
- PCAの結果がtop2主成分が3%しか分散を説明していないので可視化を行っていない
- Dyck-(k, m)実験
議論はある?
次に読むべき論文は?
- Lake and Baroni (2018)
- Brenden Lake and Marco Baroni. 2018. Generalization without systematicity: On the compositional skills of sequence-to-sequence recurrent networks. In In-ternational Conference on Machine Learning, pages 2873–2882.
- SCANタスクを提案した研究と思われる.NNで20.8%を達成.
- Maxwell Nye, A. Solar-Lezama, J. Tenenbaum, and B. Lake. 2020. Learning compositional rules via neural program synthesis. ArXiv, abs/2003.05562.
- SCANでacc 100%を達成したSCAN文法の探索モデル
- OpenNMT(Klein et al., 2017)
- WMT2009のタスクではこれを使用してmodelを訓練した
- sacreBLEU(Post, 2018)
- BLEUの計算に使用したパッケージ
- Lake and Baroni (2018)
その他,所感
- +EOSが悪化するのは,testで,trainの系列長を超えた場合にということなので,納得感はある.
- 翻訳タスクでははっきりした違いが出ていないので,実用上EOS予測してもそれほど問題ないのではと思っている.