Test to 3d随笔
本文最后更新于:2023年2月9日 下午
随便记的笔记
Text-to-3D
NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
输入为连续的5维坐标(xyz坐标,以及视野角度theta和phi);输出是空间位置的体密度以及该位置的发射射线(这里射线是根据视角变化的)。
- 用 network 存体素信息: (x, y, z, , ) (, )
- 然后用体素渲染方程获得生成视角图片:光线采样+积分 \[ C(\mathbf{r})=\int_{t_n}^{t_f} T(t) \sigma(\mathbf{r}(t)) \mathbf{c}(\mathbf{r}(t), \mathbf{d}) d t, \text { where } T(t)=\exp \left(-\int_{t_n}^t \sigma(\mathbf{r}(s)) d s\right) \]
- 最后与原视角图片计算损失更新网络
DreamFusion: Text-to-3D using 2D Diffusion
三维合成并不存在大规模的标注数据,也没有一个高效的模型架构对3D数据进行降噪
使用NERF的格式,使用预训练的text to 2d,加上他们提出的一个基于概率密度蒸馏的loss,证明了预训练图像扩散模型作为先验模型的有效性
Magic3D: High-Resolution Text-to-3D Content Creation
用一个两阶段的优化框架来提高速度和分辨率:利用低分辨率的扩散先验获得一个粗略的模型,并以稀疏的三维哈希网格结构加速。使用粗略表示作为初始化,进一步优化纹理三维网格模型,用高效的可微分渲染器与高分辨率的stable diffusion模型交互。
Point-E: A System for Generating 3D Point Clouds from Complex Prompts
不输出传统意义上的 3D 图像,它会生成点云,或空间中代表 3D 形状的离散数据点集
点云更容易合成,但它们无法捕获对象的细粒度形状或纹理,训练了一个额外的人工智能系统来将 Point-E 的点云转换为网格
算力和时间需求小 但质量差
Dream3D: Zero-Shot Text-to-3D Synthesis Using 3D Shape Prior and Text-to-Image Diffusion Models
引入一个显式3D先验形状,来优化CLIP引导的3D优化任务。具体的讲,首先在文本到形状转换时,使用输入文本生成了一个质量的3D形状来作为先验知识。然后使用它来初始化神经辐射场,并使用完整prompt进行优化
Test to 3d随笔
http://enderfga.cn/2023/02/09/3d/