2次以上の特長の相互作用が可能なattention, X-Linear Attention Networks for Image Captioning

X-Linear Attention Networks for Image Captioning

f:id:e4exp:20200910224749p:plain f:id:e4exp:20200910224805p:plain

まとめ

  • どんなもの?
    • image captioningにおいて,bilinear pooling(画像と言語のマルチモーダル入力の2次の相互作用)を構築するように拡張したattentionであるX-Linear attention blockを提案.これを複数積み重ねることで,より高次の特長の相互作用をモデリングできる(ELUを使うことで無限次の相互作用も可能).
  • 先行研究と比べてどこがすごい?
    • image captioning用にimage encoderとlanguage decoderにこのブロックを導入したネットワークX-LANはCOCOでsotaを達成.
  • 技術や手法のキモはどこ?
    • X-Linear attention block
      • QueryとKeyの要素のすべてのペアごとの相互作用を考慮するため,それらのbilinear poolingを計算(外積に相当する).その結果から空間領域のためのattentionと,channelごとのattentionを作成.QとVからenhanced value featureを作成し,空間attentionと重み付き和を取り,さらにchannelごとのattentionと要素ごとの積を取る.
    • ブロックを積み重ねる際は,前のブロックの出力vを次のブロックのQuery,次のブロックのK, Vは前のブロックの出力vと前のブロックのK,Vの要素を使って更新操作したものを使用
    • X-LANは,encoder側でFaster-RCNNで画像から特徴領域を抽出し,X-Linear attention blockを適用(decoder側の隠れ状態は使わない),decoder側ではLSTMの後段にblockをはさみ,GLUとlinearを経てsoftmaxで単語出力
  • どうやって有効だと検証した?
    • AoANet等image captioningのsotaを含む手法とBLUE@N, METEOR, ROUGE-L, CIDErで比較.
    • X-LANの構造を変えたアブレーションスタディ.blockは4つ以上積んでも効果がない.それ以上の相互作用がほしければELUを使う
  • 議論はある?
  • 次に読むべき論文は?
    • Jiasen Lu, Caiming Xiong, Devi Parikh, and Richard Socher. Knowing when to look: Adaptive attention via a visual sen-tinel for image captioning. InCVPR, 2017.
      • image captioning の先行研究.decoding段階で画像領域に注目するかどうかを適応的に決定する
    • Yu Qin, Jiajun Du, Yonghua Zhang, and Hongtao Lu. Look back and predict forward in image captioning. In CVPR, 2019.
      • image captioning の先行研究.前時刻のattention wegithsを現在のattentionの測定に統合する
    • Ranjay Krishna, Yuke Zhu, Oliver Groth, Justin Johnson, et al. Visual genome: Connecting language and vision us-ing crowdsourced dense image annotations. IJCV, 2017.
    • Steven J Rennie, Etienne Marcheret, Youssef Mroueh, Jerret Ross, and Vaibhava Goel. Self-critical sequence training for image captioning. InCVPR, 2017.
      • 訓練手法
  • その他
    • なぜ高次の相互作用になるのかまだ理解できてない