2021-12-24 vision分野で多様な下流タスクに適用できる基礎モデルFlorence DeepLearning Pre-Training Vision-Language Transformer Florence: A New Foundation Model for Computer Vision 2021/11/22 https://arxiv.org/abs/2111.11432 Fig.2 Overview of building Florence 画像ドメインで多様な下流タスク(分類、検索、オブジェクト検出、VQA、画像キャプション、ビデオ検索、アクション認識など)に適用できる汎用的な事前学習モデルFlorenceを提案 モデルは階層型vision transformer(CoSwin)の画像encoderとTransformer 言語encoderでimage-text間のcontrastive学習を行い,下流タスクは個別のタスクでdecoderを学習 FLD-900M(FLDはFLorenceDatasetの略)と呼ばれる9億の画像-テキストペアデータセットを構築 ImageNet-1Kのゼロショット分類では、トップ1の精度が83.74、トップ5の精度が97.18、COCO微調整では62.4mAP、VQAでは80.36、Kinetics-600では87.8