3d虚拟沉浸式场景 (沉浸式3d模拟场景)

来源：3D视觉工坊

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群

文本转3D应用于VR/MR平台、工业设计和游戏行业的潜力巨大，这显著推动了针对大规模沉浸式场景内容创建的研究工作。最近在2D领域的发展已经成功地使用大规模预训练的扩散模型在大规模数据集上生成或编辑高质量、可适应的图像/视频，使用户能够按需生成定制内容。

这篇文章引入了DreamScene360，利用文本到全景扩散模型的生成能力来产生全方位的360◦全景图，提供场景的全面表示。作者使用了一种自我完善的机制来增强图像以减轻即时工程，其中集成了GPT-4V来通过迭代质量评估和提示修订来提高视觉质量和文本-图像对齐。虽然生成的全景图像解决了在不同视点之间的视图一致性问题，但它们仍然缺乏深度信息和在无约束设置中的任何布局先验，并且由于它们的单视图性质而包含部分观察。为了解决这个问题，作者通过使用预训练的单目深度估计器和一个可优化的几何场来初始化尺度一致的场景几何，从而为每个透视投影像素提供可变形对齐。由单一视图观察引起的间隙可以通过将高斯函数变形到看不见的区域来填补，通过创建一组具有合成多视图效果的伪视图和从2D模型(DPT和DINO-ViT)中提取伪几何和语义约束的提取来引导变形过程，以减轻伪影的产生。

下面一起来阅读一下这项工作~

标题：DreamScene360: Unconstrained Text-to-3D Scene Generation with Panoramic Gaussian Splatting

作者：Shijie Zhou, Zhiwen Fan, Dejia Xu, Haoran Chang, Pradyumna Chari, Tejas Bharadwaj, Suya You, Zhangyang Wang, Achuta Kadambi

机构：加州大学、德克萨斯大学奥斯汀分校、DEVCOM ARL

原文链接：https://arxiv.org/abs/2404.06903

代码链接：https://dreamscene360.github.io/ (Coming soon)

官方主页：http://dreamscene360.github.io/

增加对虚拟现实应用的需求凸显了打造沉浸式三维资产的重要性。我们提出了一种文本到三维 360∘ 场景生成管道，可以在几分钟内创建野外环境下的全景 360∘ 场景。我们的方法利用了二维扩散模型的生成能力和提示的自我精化，创建了一个高质量且全局一致的全景图像。这个图像充当初步的"平面"（2D）场景表示。随后，它被提升为三维高斯函数，利用点阵技术实现实时探索。为了产生一致的三维几何形状，我们的管道通过将二维单眼深度对齐成全局优化的点云来构建空间一致的结构。这个点云作为三维高斯函数的质心的初始状态。为了解决单视图输入中固有的不可见问题，我们对合成和输入相机视图都施加了语义和几何约束作为正则化。这些约束指导了高斯函数的优化，有助于重建看不见的区域。总之，我们的方法提供了一个在 360∘ 视角内全局一致的三维场景，相比现有技术提供了更加增强的沉浸式体验。

3D场景生成管道DreamScene360，从任何特定级别的文本提示中创建沉浸式的、高质量的、360度覆盖的场景，利用GPT - 4V的二维扩散模型和全景高斯散布来实现卓越的内容质量和渲染速度。

多样化的生成。 DreamScene360生成的3D场景在风格上是多样的，在几何上是一致的，并且与简单的文本输入高度匹配。

360覆盖的真实沉浸式场景。 在每一行中，从左到右，显示新颖的视图，因为相机在偏航中进行顺时针旋转，并伴随着轻微的随机俯仰旋转和随机平移。LucidDreamer幻觉从条件图像(用红色包围盒表示)中获得新颖的视图，但缺乏全局语义、风格化和几何一致性。相比之下，DreamScene360提供了完整的360度覆盖，没有任何盲点(基线结果中的黑色区域)，并且表现出全局一致的语义。

DreamScene360使得用户可以通过简单的用户命令创建沉浸式和逼真的3D环境，为高质量3D场景的迫切需求提供了一种新的解决方案。DreamScene360还为更易于访问和用户友好的3D场景生成铺平了道路，减少了对大量手工工作的依赖。

总体架构。从简明的文本提示开始，采用扩散模型生成一张 360° 全景图像。使用自我完善过程来产生最佳的 2D 候选全景图。随后，使用 3D 几何场来初始化全景 3D 高斯函数。在整个过程中，既使用语义对应，又使用几何对应作为指导原则来优化高斯函数，旨在解决由单视图输入导致的间隙问题。

自我完善的过程通过改进文本提示大大增强了图像质量。 如每行所示，左侧的图像是使用简单用户提示生成的，而右侧的图像是使用 GPT-4V 增强的提示生成的。在多轮自我完善之后，GPT-4V 选择了一个视觉质量更好的全景图，为进一步生成的沉浸式 3D 场景提供了坚实支持。

DreamScene 360展示了全局语义、风格化和几何一致性，提供了完整的360°覆盖，没有任何盲点。

DreamScene360可以从文本输入中无限制地生成具有完整360°覆盖的高质量、沉浸式3D场景，而不考虑其具体性水平。DreamScene360利用全景作为中间环节，通过询问GPT-4V进行质量评估和提示修订，提供了自我完善的机会。随后构建一个几何场，初始化3D高斯函数。借助虚拟视图上的无监督几何和语义损失，DreamScene360将2D全景提升到全景3D高斯函数。实验表明，DreamScene360在全局一致性和视觉质量方面优于基线方法。

尽管DreamScene360呈现了令人兴奋的结果，但生成结果仍受限于文本到图像扩散模型的分辨率（512×1024）。未来，作者将探索以更高分辨率生成3D场景，以提供更好、更流畅、更沉浸式的用户体验。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉 、 大模型 、 工业3D视觉 、 SLAM 、 自动驾驶 、 三维重建 、 无人机 等方向，细分群包括：

2D计算机视觉： 图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型： NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉： 相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM： 视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶： 深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建： 3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机： 四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision，备注： 研究方向+学校/公司+昵称 （如3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、 BEV 感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、 无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、 LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、 MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪，无人机等 。