階層構造のためのLSTM,Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks

Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks

f:id:e4exp:20200911150308p:plain

まとめ

  • どんなもの?
    • 階層構造を学習させるためのLSTMの拡張.
    • 自然言語などの階層性のある系列を入力したとき,LSTMの隠れ状態はrootから現在入力されたnodeに至るまでのすべてのnode情報を持つべきである.ならば隠れ状態内では,rootやそれに近いnodeの情報は時刻が変わっても更新されないのが自然であり,一方で葉node(現在の入力)に近いnodeの情報は頻繁に更新される.これを実現させるため,活性化関数cumax()と状態更新ルールを提案
  • 先行研究と比べてどこがすごい?
    • 通常のLSTMよりも特に長い系列に対して汎化性能やロバスト性が高い
  • 技術や手法のキモはどこ?
    • cumax()はsoftmaxの累積和(cumulative sum)を取る操作.
    • master forget gateおよびmaster input gateというベクトルを導入し,このベクトルが隠れ状態内の各ニューロンの消去や更新をコントロールする.
      • master forget gateはforget gate同様の計算にcumax()を適用したベクトル.cumaxによってベクトル内部は[0, ... ,0 , 1, ..., 1]のようになる(実際には連続値).それぞれが隠れ状態のニューロン一つずつに対応し,0が割り当てられたニューロンは内容を消去される.1を割り当てられた部分が長期に保存しておくべき情報(階層構造のroot nodeなど)に対応する.
      • master input gateは[1, ..., 1, 0, ..., 0]のようになる.こちらは1の場所で書き込みが発生する.長期間保存される場所に対しては書き込み頻度が少ない
    • 前時刻のセル状態 * 調整版master forget gate + 調整版master input gate * 現時刻のセル(普通のLSTMの計算によるセル)状態でセルが更新される
      • 調整については普通のLSTMのforget gate, input gateを使って,2つのmasterベクトルで1が重なった箇所に対して個別の消去or非消去などが決定される
  • どうやって有効だと検証した?
    • 既存のLSTM系モデルと,言語モデリング,教師なし構成要素parsing,論理推定で比較
  • 議論はある?
  • 次に読むべき論文は?
    • Kristina Gulordava, Piotr Bojanowski, Edouard Grave, Tal Linzen, and Marco Baroni. Colorless green recurrent networks dream hierarchically. InProc. of NAACL, pp. 1195–1205, 2018.
      • LSTMは暗黙的に木構造をencodeし,syntactic処理可能とする研究
    • Adhiguna Kuncoro, Chris Dyer, John Hale, Dani Yogatama, Stephen Clark, and Phil Blunsom. Lstms can learn syntax-sensitive dependencies well, but modeling structure makes them better. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), volume 1, pp. 1426–1436, 2018
      • LSTMは暗黙的に木構造をencodeし,syntactic処理可能とする研究
    • Yair Lakretz, German Kruszewski, Theo Desbordes, Dieuwke Hupkes, Stanislas Dehaene, and Marco Baroni. The emergence of number and syntax units in lstm language models. In Proc. ofNAACL, 2019.
      • LSTMは暗黙的に木構造をencodeし,syntactic処理可能とする研究
  • その他