MAV3D:Text-To-4D Dynamic Scene Generation

本文最后更新于:2023年2月11日 晚上

论文阅读笔记

MAV3D:Text-To-4D Dynamic Scene Generation

Motivation

  1. 需要一个有效的、端到端可学习的动态三维场景表征;
  2. 需要一个有监督学习的数据源,因为目前并不存在大规模的(文本,4D)对的数据集可供学习;
  3. 需要在空间和时间维度上扩展输出的分辨率,因为4D输出需要大量的内存和计算能力;

Proposal

  1. 本文提出了MAV3D,利用了T2V模型和动态NeRFs,实现从自然语言描述生成动态三维时间表示;
  2. 提出了一个从静态到动态的多阶段优化方案,逐步纳入静态、时间和超分辨率模型的梯度信息。

dynamic NeRFs

适用于动态场景的NeRF变体

MAV

Make A Video,通过在未标记的视频上训练,拓展了文本到图像(T2I)模型。

DreamFusion

以NeRF的形式从文本描述中学习3D表示,提出了一个基于概率密度蒸馏的loss(SDS)

Method

4D Scene Representation

\[ \left(\tau, c_i\right)=f_\theta(x, y, z, t) \]

\[ \left[P_{x y}^{X Y R_1}+P_{z t}^{Z T R_1} ; P_{x z}^{X Z R_2}+P_{y t}^{Y T R_2} ; P_{y z}^{Y Z R_3}+P_{y z}^{X T R_3}\right] \]

Dynamic Scene Optimization

为了监督4D场景与文本提示p匹配,引入SDS-T(temporal Score Distillation Sampling )

\[ \nabla_\theta \mathcal{L}_{S D S-T}=E_{\sigma, \epsilon}\left[w(\sigma)\left(\hat{\epsilon}\left(V_{(\bar{\theta}, \sigma, \epsilon)} \mid y, \sigma\right)-\epsilon\right) \frac{\partial V_\theta}{\partial \theta}\right] \\ \]

\[ \nabla_\theta \mathcal{L}_{\mathrm{SDS}}(\phi, \mathbf{x}=g(\theta)) \triangleq \mathbb{E}_{t, \epsilon}\left[w(t)\left(\hat{\epsilon}_\phi\left(\mathbf{z}_t ; y, t\right)-\epsilon\right) \frac{\partial \mathbf{x}}{\partial \theta}\right] \]

从静态到动态的场景优化

动态相机

FPS 采样

高斯退火

全变分损失

Super-Resolution Fine-Tuning

Experiment

Metrics:R-Precision and human preference

Limitations

  • 将动态NeRFs转换为实时应用的不连续网格序列的效率很低,如果能直接预测顶点的轨迹,就能得到改善。
  • 利用超分辨率信息提高了表示的质量,但对于更高细节的纹理还需要进一步改进。
  • 文本到四维动态场景生成的表示质量取决于T2V模型从不同视角生成视频的能力。

MAV3D:Text-To-4D Dynamic Scene Generation
http://enderfga.cn/2023/02/11/mav/
作者
Enderfga
发布于
2023年2月11日
许可协议