vision分野で多様な下流タスクに適用できる基礎モデルFlorence

Florence: A New Foundation Model for Computer Vision 2021/11/22 https://arxiv.org/abs/2111.11432

f:id:e4exp:20211224151250p:plain
Fig.2 Overview of building Florence

  • 画像ドメインで多様な下流タスク(分類、検索、オブジェクト検出、VQA、画像キャプション、ビデオ検索、アクション認識など)に適用できる汎用的な事前学習モデルFlorenceを提案
    • モデルは階層型vision transformer(CoSwin)の画像encoderとTransformer 言語encoderでimage-text間のcontrastive学習を行い,下流タスクは個別のタスクでdecoderを学習
    • FLD-900M(FLDはFLorenceDatasetの略)と呼ばれる9億の画像-テキストペアデータセットを構築
  • ImageNet-1Kのゼロショット分類では、トップ1の精度が83.74、トップ5の精度が97.18、COCO微調整では62.4mAP、VQAでは80.36、Kinetics-600では87.8