Detecting Twenty-thousand Classes using Image-level Supervision

https://arxiv.org/abs/2201.02605
2022/01

f:id:e4exp:20220113124347p:plain f:id:e4exp:20220113124411p:plain

faster RCNN ベースの２段階モデルで候補領域提案後に分類部分を訓練する方法で，imagenetの21,000クラスの物体検出が可能なDetector with image classes (Detic)を提案
- 従来の弱教師検出手法では領域提案技術で出力されるboxとクラスラベルのみを持つ画像分類データセットのラベルをマッチさせる戦略を取っていたが，本論文は領域提案だけで未知の物体の提案は学習できているとしている
- boxラベルのない画像分類データに対しては，モデル出力候補のうちエリアが最大の出力に対してクラスラベルを使って分類を学習．lossは全クラスに対してBCE．ここではlocalization損失は計算しない
- boxラベルがあるデータについては通常の物体検出学習
  - 分類部分はCLIPを使用しており，open vocabularyな分類が可能
実験ではfrequent, common, rareの３グループを持つ物体検出データセットのLVISと，画像分類用データセットとして21Kクラスのimagenet，conceptual captionsを使用．conceptual captionはimage captionデータセットなのでキャプションからクラスラベルを抽出してLVISクラスに言及しているものを使用
- open vocabulary設定のLVISベンチマークで全クラスで，先行手法より2.4mAP，新規クラスで8.3mAPの改善．提案手法は標準LVISベンチマークで全クラスで41.7mAP，希少クラスで41.7mAPなど
https://huggingface.co/spaces/akhaliq/Detic
- デモ

学んだことメモ

21,000クラスを検出可能な物体検出手法 Detic

Detecting Twenty-thousand Classes using Image-level Supervision