クロスモーダル事前学習不要のVQAモデル, Multimodal Bitransformer
Supervised Multimodal Bitransformers for Classifying Images and Text
- VQAにおいて,個別に事前学習済みの画像encoder, text encoderを組み合わせてBERTベースモデルでSAすることで,VilBERTのようなクロスモーダル事前学習モデルに匹敵する性能が出る
- 学習済みモデルの凍結を解除するタイミングについてablationを実施し,画像エンコーダの早期凍結解除は最も効果的としている