学んだことメモ

data2vec: 画像，音声，言語を同じ手法で事前学習できる一般的フレームワーク

DeepLearning Pre-Training Self-Supervised Transformer 論文読み

Data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language

f:id:e4exp:20220204175537p:plain f:id:e4exp:20220204175612p:plain

音声、自然言語処理、コンピュータビジョンのいずれに対しても同じ学習手法を用いるフレームワーク、data2vecを提案
同一モデルを教師/生徒モードで使用する自己蒸留で，教師モードでデータの復元を行い潜在表現を学習したあと，生徒モードで同じデータにマスクを適用して入力し，学習した潜在表現を復元するように学習
- モデルはtransformerベース．教師の重みは、生徒の指数関数的に減衰する平均値．lossはsmooth L1
評価実験では提案手法の事前学習を用いてImageNet-1Kでsota達成など