data2vec: 画像,音声,言語を同じ手法で事前学習できる一般的フレームワーク

Data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language

f:id:e4exp:20220204175537p:plain f:id:e4exp:20220204175612p:plain

  • 音声、自然言語処理、コンピュータビジョンのいずれに対しても同じ学習手法を用いるフレームワーク、data2vecを提案
  • 同一モデルを教師/生徒モードで使用する自己蒸留で,教師モードでデータの復元を行い潜在表現を学習したあと,生徒モードで同じデータにマスクを適用して入力し,学習した潜在表現を復元するように学習
    • モデルはtransformerベース.教師の重みは、生徒の指数関数的に減衰する平均値.lossはsmooth L1
  • 評価実験では提案手法の事前学習を用いてImageNet-1Kでsota達成など