X-Linear Attention Networks for Image Captioning

paper
- https://arxiv.org/abs/2003.14080
- Yingwei Pan, Ting Yao, Yehao Li, and Tao Mei
github
- https://github.com/JDAI-CV/image-captioning
データセット
- COCO
project

f:id:e4exp:20200910224749p:plain f:id:e4exp:20200910224805p:plain

まとめ

どんなもの？
- image captioningにおいて，bilinear pooling(画像と言語のマルチモーダル入力の2次の相互作用)を構築するように拡張したattentionであるX-Linear attention blockを提案．これを複数積み重ねることで，より高次の特長の相互作用をモデリングできる(ELUを使うことで無限次の相互作用も可能)．
先行研究と比べてどこがすごい？
- image captioning用にimage encoderとlanguage decoderにこのブロックを導入したネットワークX-LANはCOCOでsotaを達成．
技術や手法のキモはどこ？
- X-Linear attention block
  - QueryとKeyの要素のすべてのペアごとの相互作用を考慮するため，それらのbilinear poolingを計算(外積に相当する)．その結果から空間領域のためのattentionと，channelごとのattentionを作成．QとVからenhanced value featureを作成し，空間attentionと重み付き和を取り，さらにchannelごとのattentionと要素ごとの積を取る．
- ブロックを積み重ねる際は，前のブロックの出力vを次のブロックのQuery，次のブロックのK, Vは前のブロックの出力vと前のブロックのK,Vの要素を使って更新操作したものを使用
- X-LANは，encoder側でFaster-RCNNで画像から特徴領域を抽出し，X-Linear attention blockを適用(decoder側の隠れ状態は使わない)，decoder側ではLSTMの後段にblockをはさみ，GLUとlinearを経てsoftmaxで単語出力
どうやって有効だと検証した？
- AoANet等image captioningのsotaを含む手法とBLUE@N, METEOR, ROUGE-L, CIDErで比較．
- X-LANの構造を変えたアブレーションスタディ．blockは4つ以上積んでも効果がない．それ以上の相互作用がほしければELUを使う
議論はある？
次に読むべき論文は？
- Jiasen Lu, Caiming Xiong, Devi Parikh, and Richard Socher. Knowing when to look: Adaptive attention via a visual sen-tinel for image captioning. InCVPR, 2017.
  - image captioning の先行研究．decoding段階で画像領域に注目するかどうかを適応的に決定する
- Yu Qin, Jiajun Du, Yonghua Zhang, and Hongtao Lu. Look back and predict forward in image captioning. In CVPR, 2019.
  - image captioning の先行研究．前時刻のattention wegithsを現在のattentionの測定に統合する
- Ranjay Krishna, Yuke Zhu, Oliver Groth, Justin Johnson, et al. Visual genome: Connecting language and vision us-ing crowdsourced dense image annotations. IJCV, 2017.
  - visual genome．データセット?
- Steven J Rennie, Etienne Marcheret, Youssef Mroueh, Jerret Ross, and Vaibhava Goel. Self-critical sequence training for image captioning. InCVPR, 2017.
  - 訓練手法
その他
- なぜ高次の相互作用になるのかまだ理解できてない

学んだことメモ

2次以上の特長の相互作用が可能なattention, X-Linear Attention Networks for Image Captioning

X-Linear Attention Networks for Image Captioning

まとめ