2次以上の特長の相互作用が可能なattention, X-Linear Attention Networks for Image Captioning
X-Linear Attention Networks for Image Captioning
- paper
- https://arxiv.org/abs/2003.14080
- Yingwei Pan, Ting Yao, Yehao Li, and Tao Mei
- github
- データセット
- COCO
- project
まとめ
- どんなもの?
- image captioningにおいて,bilinear pooling(画像と言語のマルチモーダル入力の2次の相互作用)を構築するように拡張したattentionであるX-Linear attention blockを提案.これを複数積み重ねることで,より高次の特長の相互作用をモデリングできる(ELUを使うことで無限次の相互作用も可能).
- 先行研究と比べてどこがすごい?
- image captioning用にimage encoderとlanguage decoderにこのブロックを導入したネットワークX-LANはCOCOでsotaを達成.
- 技術や手法のキモはどこ?
- X-Linear attention block
- ブロックを積み重ねる際は,前のブロックの出力vを次のブロックのQuery,次のブロックのK, Vは前のブロックの出力vと前のブロックのK,Vの要素を使って更新操作したものを使用
- X-LANは,encoder側でFaster-RCNNで画像から特徴領域を抽出し,X-Linear attention blockを適用(decoder側の隠れ状態は使わない),decoder側ではLSTMの後段にblockをはさみ,GLUとlinearを経てsoftmaxで単語出力
- どうやって有効だと検証した?
- AoANet等image captioningのsotaを含む手法とBLUE@N, METEOR, ROUGE-L, CIDErで比較.
- X-LANの構造を変えたアブレーションスタディ.blockは4つ以上積んでも効果がない.それ以上の相互作用がほしければELUを使う
- 議論はある?
- 次に読むべき論文は?
- Jiasen Lu, Caiming Xiong, Devi Parikh, and Richard Socher. Knowing when to look: Adaptive attention via a visual sen-tinel for image captioning. InCVPR, 2017.
- image captioning の先行研究.decoding段階で画像領域に注目するかどうかを適応的に決定する
- Yu Qin, Jiajun Du, Yonghua Zhang, and Hongtao Lu. Look back and predict forward in image captioning. In CVPR, 2019.
- image captioning の先行研究.前時刻のattention wegithsを現在のattentionの測定に統合する
- Ranjay Krishna, Yuke Zhu, Oliver Groth, Justin Johnson, et al. Visual genome: Connecting language and vision us-ing crowdsourced dense image annotations. IJCV, 2017.
- visual genome.データセット?
- Steven J Rennie, Etienne Marcheret, Youssef Mroueh, Jerret Ross, and Vaibhava Goel. Self-critical sequence training for image captioning. InCVPR, 2017.
- 訓練手法
- Jiasen Lu, Caiming Xiong, Devi Parikh, and Richard Socher. Knowing when to look: Adaptive attention via a visual sen-tinel for image captioning. InCVPR, 2017.
- その他
- なぜ高次の相互作用になるのかまだ理解できてない