2D画像から3Dモデルを生成するTL-embedding networkの論文メモ

Learning a Predictable and Generative Vector Representation for Objects

f:id:e4exp:20200519214634p:plain
TL-embedding network

ひとことまとめ

  • どんなもの?
    • 3Dモデルを再構築するauto-encoderと2D画像を潜在表現に落とすCNNを使って,2D画像からの3Dモデルの再構築と未知の3Dモデル生成等ができるベクトル表現を獲得させた
  • 先行研究と比べてどこがすごい?
    • 2D画像から3Dモデルの直接の推定を扱っている(deepでこのタスクを扱ったものでは最初期の研究)
  • 技術や手法のキモはどこ?
    • auto-encoder(T-network)は3Dモデルを入力して同じモデルを再構築する
    • CNN(L-network)は2D画像を入力して64次元ベクトルに落とす.教師データは先に訓練したauto-encoderのencoded vector
    • 最後に前者2つを接続して同時に訓練する(fine tuning)
  • どうやって有効だと検証した?
    • ShapeNet[39]データセットを使用して訓練.再構築の精度は正解モデルとのAP
    • モデルの再構成能力をPCAと質的・量的に比較(PCAがどうやってdecodeをするのかわからなかった)
    • ModelNet40[28]データセットを使い,SVMにモデルの潜在表現を入力して3Dモデルのクラス分類.[39]を上回るaccuracy
    • IKEAデータセット[23]を使い,画像から3Dモデルの推定でベースライン(CNNで直接推定)を上回るAP
    • 2次元画像を入力し,潜在空間に落としたベクトルとのcos類似度で近いcadモデルの取り出しタスク
  • 議論はある?
    • なし
    • モデルの表現能力について,添付されている図では若干,能力が足りないのではと思われる箇所はある
  • 次に読むべき論文は?
    • [35]
      • Render for CNN: Viewpoint Estimation in Images Using CNNs Trained with Rendered 3D Model Views
    • [39]
      • 3D shapenets: A deep representation for volumetric shapes