学んだことメモ

クロスモーダル事前学習不要のVQAモデル, Multimodal Bitransformer

DeepLearning Vision-Language Transformer

Supervised Multimodal Bitransformers for Classifying Images and Text

https://arxiv.org/abs/1909.02950
2019

f:id:e4exp:20211227203619p:plain — Architecture

VQAにおいて，個別に事前学習済みの画像encoder, text encoderを組み合わせてBERTベースモデルでSAすることで，VilBERTのようなクロスモーダル事前学習モデルに匹敵する性能が出る
- 画像encoderはresnet152を使用しており物体検出も不要
- MM-IMDB, FOOD101, V-SNLIの3つのVQAデータセットで評価しており，さらにユニモーダルデータだけでは解くことが難しいデータを集めた版も作成している
  - BertとImg分類器の予測値が基底真理クラスと最も異なる例を集めた
  - (Goyal et al.、2019 でVQAではテキスト情報が過度に支配的であるとしている)
学習済みモデルの凍結を解除するタイミングについてablationを実施し，画像エンコーダの早期凍結解除は最も効果的としている