Learning a Predictable and Generative Vector Representation for Objects

Rohit Girdhar, David F. Fouhey, Mikel Rodriguez, Abhinav Gupta
https://arxiv.org/abs/1603.08637
- v2
ECCV2016
コード
- https://github.com/rohitgirdhar/GenerativePredictableVoxels

f:id:e4exp:20200519214634p:plain — TL-embedding network

ひとことまとめ

どんなもの？
- 3Dモデルを再構築するauto-encoderと2D画像を潜在表現に落とすCNNを使って，2D画像からの3Dモデルの再構築と未知の3Dモデル生成等ができるベクトル表現を獲得させた
先行研究と比べてどこがすごい？
- 2D画像から3Dモデルの直接の推定を扱っている(deepでこのタスクを扱ったものでは最初期の研究)
技術や手法のキモはどこ？
- auto-encoder(T-network)は3Dモデルを入力して同じモデルを再構築する
- CNN(L-network)は2D画像を入力して64次元ベクトルに落とす．教師データは先に訓練したauto-encoderのencoded vector
- 最後に前者2つを接続して同時に訓練する(fine tuning)
どうやって有効だと検証した？
- ShapeNet[39]データセットを使用して訓練．再構築の精度は正解モデルとのAP
- モデルの再構成能力をPCAと質的・量的に比較(PCAがどうやってdecodeをするのかわからなかった)
- ModelNet40[28]データセットを使い，SVMにモデルの潜在表現を入力して3Dモデルのクラス分類．[39]を上回るaccuracy
- IKEAデータセット[23]を使い，画像から3Dモデルの推定でベースライン(CNNで直接推定)を上回るAP
- 2次元画像を入力し，潜在空間に落としたベクトルとのcos類似度で近いcadモデルの取り出しタスク
議論はある？
- なし
- モデルの表現能力について，添付されている図では若干，能力が足りないのではと思われる箇所はある
次に読むべき論文は？
- [35]
  - Render for CNN: Viewpoint Estimation in Images Using CNNs Trained with Rendered 3D Model Views
- [39]
  - 3D shapenets: A deep representation for volumetric shapes

学んだことメモ

2D画像から3Dモデルを生成するTL-embedding networkの論文メモ

Learning a Predictable and Generative Vector Representation for Objects

ひとことまとめ