MAV3D:Text-To-4D Dynamic Scene Generation
本文最后更新于:2023年2月11日 晚上
论文阅读笔记
MAV3D:Text-To-4D Dynamic Scene Generation
Meta AI
2023.1.26
Demo
Motivation
- 需要一个有效的、端到端可学习的动态三维场景表征;
- 需要一个有监督学习的数据源,因为目前并不存在大规模的(文本,4D)对的数据集可供学习;
- 需要在空间和时间维度上扩展输出的分辨率,因为4D输出需要大量的内存和计算能力;
Proposal
- 本文提出了MAV3D,利用了T2V模型和动态NeRFs,实现从自然语言描述生成动态三维时间表示;
- 提出了一个从静态到动态的多阶段优化方案,逐步纳入静态、时间和超分辨率模型的梯度信息。
Related Work
dynamic NeRFs
适用于动态场景的NeRF变体
MAV
Make A Video,通过在未标记的视频上训练,拓展了文本到图像(T2I)模型。
DreamFusion
以NeRF的形式从文本描述中学习3D表示,提出了一个基于概率密度蒸馏的loss(SDS)
Method
4D Scene Representation
\[ \left(\tau, c_i\right)=f_\theta(x, y, z, t) \]
\[ \left[P_{x y}^{X Y R_1}+P_{z t}^{Z T R_1} ; P_{x z}^{X Z R_2}+P_{y t}^{Y T R_2} ; P_{y z}^{Y Z R_3}+P_{y z}^{X T R_3}\right] \]
Dynamic Scene Optimization
为了监督4D场景与文本提示p匹配,引入SDS-T(temporal Score Distillation Sampling )
\[ \nabla_\theta \mathcal{L}_{S D S-T}=E_{\sigma, \epsilon}\left[w(\sigma)\left(\hat{\epsilon}\left(V_{(\bar{\theta}, \sigma, \epsilon)} \mid y, \sigma\right)-\epsilon\right) \frac{\partial V_\theta}{\partial \theta}\right] \\ \]
\[ \nabla_\theta \mathcal{L}_{\mathrm{SDS}}(\phi, \mathbf{x}=g(\theta)) \triangleq \mathbb{E}_{t, \epsilon}\left[w(t)\left(\hat{\epsilon}_\phi\left(\mathbf{z}_t ; y, t\right)-\epsilon\right) \frac{\partial \mathbf{x}}{\partial \theta}\right] \]
从静态到动态的场景优化
动态相机
FPS 采样
高斯退火
全变分损失
Super-Resolution Fine-Tuning
Experiment
Metrics:R-Precision and human preference
Limitations
- 将动态NeRFs转换为实时应用的不连续网格序列的效率很低,如果能直接预测顶点的轨迹,就能得到改善。
- 利用超分辨率信息提高了表示的质量,但对于更高细节的纹理还需要进一步改进。
- 文本到四维动态场景生成的表示质量取决于T2V模型从不同视角生成视频的能力。