2D画像から3Dモデルを生成するTL-embedding networkの論文メモ
Learning a Predictable and Generative Vector Representation for Objects
- Rohit Girdhar, David F. Fouhey, Mikel Rodriguez, Abhinav Gupta
- https://arxiv.org/abs/1603.08637
- v2
- ECCV2016
- コード
ひとことまとめ
- どんなもの?
- 3Dモデルを再構築するauto-encoderと2D画像を潜在表現に落とすCNNを使って,2D画像からの3Dモデルの再構築と未知の3Dモデル生成等ができるベクトル表現を獲得させた
- 先行研究と比べてどこがすごい?
- 2D画像から3Dモデルの直接の推定を扱っている(deepでこのタスクを扱ったものでは最初期の研究)
- 技術や手法のキモはどこ?
- auto-encoder(T-network)は3Dモデルを入力して同じモデルを再構築する
- CNN(L-network)は2D画像を入力して64次元ベクトルに落とす.教師データは先に訓練したauto-encoderのencoded vector
- 最後に前者2つを接続して同時に訓練する(fine tuning)
- どうやって有効だと検証した?
- 議論はある?
- なし
- モデルの表現能力について,添付されている図では若干,能力が足りないのではと思われる箇所はある
- 次に読むべき論文は?
- [35]
- Render for CNN: Viewpoint Estimation in Images Using CNNs Trained with Rendered 3D Model Views
- [39]
- 3D shapenets: A deep representation for volumetric shapes
- [35]