vision分野で多様な下流タスクに適用できる基礎モデルFlorence

Florence: A New Foundation Model for Computer Vision 2021/11/22 https://arxiv.org/abs/2111.11432

画像ドメインで多様な下流タスク(分類、検索、オブジェクト検出、VQA、画像キャプション、ビデオ検索、アクション認識など)に適用できる汎用的な事前学習モデルFlorenceを提案
- モデルは階層型vision transformer(CoSwin)の画像encoderとTransformer 言語encoderでimage-text間のcontrastive学習を行い，下流タスクは個別のタスクでdecoderを学習
- FLD-900M（FLDはFLorenceDatasetの略）と呼ばれる9億の画像-テキストペアデータセットを構築
ImageNet-1Kのゼロショット分類では、トップ1の精度が83.74、トップ5の精度が97.18、COCO微調整では62.4mAP、VQAでは80.36、Kinetics-600では87.8