任意クラスの分類器を生成できるzero-shot転移モデルCLIP

Learning Transferable Visual Models From Natural Language Supervision

f:id:e4exp:20210208103401p:plain

まとめ

  • どんなもの?
    • どの画像がどのキャプションとマッチしているかを予測する事前訓練を行うモデル.推論時に入力画像に対してキャプション部分のクラス名を変えることで任意クラスの分類器を作成できる.訓練データはwebベースの画像/テキスト4億ペアで,ImageNetの訓練データを使わずzero shotで教師ありResNet50と互角などの性能が出る
    • 提案手法をContrastive Language-Image Pre-training(CLIP)と呼ぶ
  • 先行研究と比べてどこがすごい?
    • 30以上のデータセットでのzeroshot transferで,従来のタスク固有の教師ありモデルと互角
  • 技術や手法のキモはどこ?
    • image encoderとtext encoderを一緒に学習させ,(image, text)ペアの正しいペアリングを予測するように学習する.テスト時にはターゲットデータセットのクラスの説明のembeddingによってtext encoderがzero shot linear classifierを合成
      • image encoderはResNet-D(Heら2019)の変種
      • text encoderはRadfordら2019の変更を加えたTransformer
        • lower cased BPEで語彙数を49152,計算効率のために最大系列長は76に制限.
    • contrastive objectiveで学習する
      • N個の(image, text)ペアがあり,CLIPはNxNの可能な(image, text)ペアのどれがバッチ内で実際に起こっているか予測するよう訓練される
      • CLIPはimage encoderとtext encoderを同時訓練してマルチモーダル埋め込み空間を学習し,バッチ内のN個のrealペアのimage text embeddingのcosine 類似度を最大化し,N2-Nの正しくないペアのembeddingに対する類似度を最小化する.これらの類似度スコアの対称cross entropy lossを最小化する.
    • 推論時に,A photo of a {label}のような文章の形でクラスラベルを入力することで,ラベル単体を入力するよりaccが1.3ポイント程改善
  • どうやって有効だと検証した?
    • 27個のデータセットで,zero shot CLIPとResNet50特徴で訓練した教師あり線形分類器の性能を比較
    • zero shot CLIPと4から16shotの公開モデル(BiT, SimCLRなど)を利用した線形分類器で比較
    • ImageNetで学習して,それとは分布が異なるデータセットに対するロバスト性の比較
    • 人間のzero shot, few shot分類能力との比較
    • WITデータセット内のデータの下流データセットと重複によりaccが増加している可能性を考え,その影響度合いの調査
    • CLIPがネットから得たデータに付随する社会的バイアスをどの程度学習しているか検証
  • 議論はある?
    • 衛星画像分類,腫瘍検出,合成物体カウント,自動運転用標識認識,距離認識,のような複雑なタスクでは性能を発揮しない
  • 次に読むべき論文は?

    • 標準化text-to-textモデル
      • McCann, B., Keskar, N. S., Xiong, C., and Socher, R. The natural language decathlon: Multitask learning as ques-tion answering. arXiv preprint arXiv:1806.08730, 2018.
      • Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., and Liu, P. J. Exploring the limits of transfer learning with a unified text-to-text transformer. arXiv preprint arXiv:1910.10683, 2019.
      • Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., and Sutskever,I.Languagemodelsareunsupervisedmultitasklearners. 2019.
    • テキストから画像特徴を学習する能力を示した
      • Desai, K. and Johnson, J. Virtex: Learning visual rep-resentations from textual annotations. arXiv preprint arXiv:2006.06666, 2020.
        • VirTex
      • Bulent Sariyildiz, M., Perez, J., and Larlus, D. Learning visual representations with caption annotations. arXiv e-prints, pp. arXiv–2008, 2020.
        • ICMLM
      • Zhang, Y., Jiang, H., Miura, Y., Manning, C. D., and Lan-glotz, C. P. Contrastive learning of medical visual repre-sentations from paired images and text. arXiv preprint arXiv:2010.00747, 2020.
        • ConVIRT.本論文のCLIPはこれをシンプル化したもの
    • contrastive learning
      • Tian, Y., Krishnan, D., and Isola, P. Contrastive multiview coding. arXiv preprint arXiv:1906.05849, 2019.
        • 画像のcontrastive表現学習.predictiveより良い表現が学習できる
      • Zhang, Y., Jiang, H., Miura, Y., Manning, C. D., and Lan-glotz, C. P. Contrastive learning of medical visual repre-sentations from paired images and text. arXiv preprint arXiv:2010.00747, 2020.
        • 医療画像分野でのcontrastive (text, image)の表現学習
    • Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., and Sutskever,I. Language models are unsupervised multitask learners. 2019.
      • text encoderのtransformerに対して加えた変更
    • Li,A.,Jabri,A.,Joulin,A.,andvanderMaaten,L.Learningvisual n-grams from web data. In Proceedings of the IEEE International Conference on Computer Vision, pp. 4183–4192, 2017.
      • データセットに対するzero-shot転移を最初に行った研究
  • その他