クロスモーダル事前学習不要のVQAモデル, Multimodal Bitransformer

Supervised Multimodal Bitransformers for Classifying Images and Text

f:id:e4exp:20211227203619p:plain
Architecture

  • VQAにおいて,個別に事前学習済みの画像encoder, text encoderを組み合わせてBERTベースモデルでSAすることで,VilBERTのようなクロスモーダル事前学習モデルに匹敵する性能が出る
    • 画像encoderはresnet152を使用しており物体検出も不要
    • MM-IMDB, FOOD101, V-SNLIの3つのVQAデータセットで評価しており,さらにユニモーダルデータだけでは解くことが難しいデータを集めた版も作成している
      • BertとImg分類器の予測値が基底真理クラスと最も異なる例を集めた
      • (Goyal et al.、2019 でVQAではテキスト情報が過度に支配的であるとしている)
  • 学習済みモデルの凍結を解除するタイミングについてablationを実施し,画像エンコーダの早期凍結解除は最も効果的としている