一张图生成任意场景3D模型，部分遮挡也不怕｜IDEA x 光影焕像联合开源_学习资源

一张图生成任意场景3D模型，部分遮挡也不怕｜IDEA x 光影焕像联合开源

创始人

2026-01-25 13:18:24

SceneMaker团队投稿

量子位 | 公众号 QbitAI

当前3D生成技术深陷“半开放”窘境：模型能打造精美的样板间，却对真实世界中千变万化的物体与场景表现不稳定。

IDEA研究院张磊团队与香港科技大学谭平团队联合推出SceneMaker框架，有望攻克这一问题。

它以视启未来的万物检测模型DINO-X与光影焕像的万物3D生成模型Triverse为基础，实现了从任意开放世界图像（室内/室外/合成图等）到带Mesh的3D场景的完整重建。

它不仅解决了严重遮挡下的几何质量衰退难题，更具备文本指令可控的去遮挡能力，为真实世界感知与建模（Real-to-Sim）带来了关键突破。

△视频1：通过3D场景生成技术生产的开放世界场景一、3D场景生成的“室内魔咒”

如何让计算机感知和建模真实世界（Real-to-Sim）一直是人工智能领域的核心挑战，而3D场景生成正是这一挑战中的关键任务之一。

该任务旨在从输入的场景图像中恢复完整的三维结构：模型需要生成开放世界下任意场景中各个物体的显式三维几何表示（如mesh），同时估计其在空间中的位姿信息，最终重构出可交互、可编辑的3D场景。

不同于传统二维视觉理解，3D场景生成不仅要求模型具备对物体语义的准确感知，还需要深入理解物体的几何形态及其空间关系，从而具备更强的空间智能能力。因此，该方向在具身智能、虚拟现实以及游戏工业等领域有着不可估量的应用价值。

但3D场景数据的采集和标注成本极高，导致现有技术长期受限于数据规模，往往只能处理室内场景和少数家具类物体，无法应对开放世界中千奇百怪的物体和复杂环境，比如：

（1）场景受限：只能处理客厅、卧室这类熟悉的室内场景，遇到街道、公园、桌面摆件等开放场景束手无策。

（2）遮挡难题：现实中物体互相遮挡是常态，现有模型缺乏足够的“遮挡常识”，面对这种情况往往只能生成残缺、扭曲的3D几何形状。

（3）泛化不足：对于没见过的物体（比如小众手办、特殊工具），模型无法准确重建其3D结构，更谈不上估计其在空间中的位置和姿态。

△图1 SceneMaker不仅在室内、室外、桌面等开放环境场景中都实现了卓越的性能，还展示了覆盖合成图像、文生图、真实世界拍摄图像的强大泛化能力。二、SceneMaker：从室内走向开放世界1. 技术原理

SceneMaker框架的目标是给定任意场景的图像，输出重建的3D场景，包含物体的三维几何和位姿信息。其核心思路是回归万物检测的原点，重新拆解难题，打造一条高效的3D场景生产线。如图2所示，整个框架分为三大模块：场景感知、三维物体重建和位姿估计：

（1）场景感知：让模型“看清”输入图像里有什么。团队使用DINO-X万物检测模型，精准识别图像中所有物体并进行分割，再通过深度估计模型得到对应的3D点云。

（2）三维物体重建：给遮挡物体还原全貌。使用解耦的图像去遮挡模型对分割后的物体进行去遮挡，得到完整物体图像，输入Triverse万物重建模型完成任意物体的3D重建，获得显式几何（mesh）和纹理信息。

（3）位姿估计：给物体找准位置。基于场景图像和点云，估计重建3D物体在场景中的旋转、平移和尺寸等位姿信息，并将所有物体按照位姿关系组合得到最终3D场景。

△图2 SceneMaker场景生成框架2. 核心创新

受限于有限的3D场景数据，当前3D场景生成的核心问题是缺少开放世界下的去遮挡和位姿估计先验。即面对千奇百怪的陌生场景，模型既不会处理物体互相遮挡的情况，也搞不懂物体的位置关系。为此，SceneMaker提出三大创新，大幅提升模型的去遮挡能力和开放世界的重建能力：

（1）解耦的去遮挡模块

现实场景里，物体互相遮挡是常态。传统3D模型因为缺乏足够的3D遮挡数据训练，只能生成残缺、扭曲的3D形状。比如把被挡住一半的杯子，最终重建出“少个杯壁”的畸形模型。SceneMaker的解决方案很简单：将去遮挡模型从3D重建中解耦出来，充分利用图像数据集丰富的开放集先验，先对物体图像去遮挡，再进行3D重建。

具体而言，首先构建一个包含三种常见遮挡情况（物体遮挡、图像边角和用户涂抹）的图像去遮挡数据集，再基于海量图像数据训练“文本-图像”编辑模型，使其能精准还原被挡住的部分。

如图3所示，相较于原生的3D重建方案，SceneMaker具备更强的去遮挡能力和更高精度的几何。同时如图4所示，SceneMaker还进一步支持文本可控的物体生成，能够控制不可见部分的内容（花盆颜色、玩具背部等）。

△图3 在严重遮挡下对物体重建能力的对比。SceneMaker具有更完整和精细的几何表面。

△图4 文本可控的3D物体重建（2）统一的位姿估计模型

如果说3D重建是造零件，那么位姿估计就是组装零件，让每个物体知道“自己该在哪个位置、转多少角度、多大尺寸”。传统模型在这一步常犯两个低级错误：一是漏估尺寸，比如“把手机建成平板电脑那么大”，或者“把椅子建成凳子那么高”；二是位置混乱，比如“让杯子悬浮在茶几上方”，完全不符合现实空间物理逻辑。

问题的根源在于，传统模型不会针对性关注信息。比如在估算物体旋转角度时，不该被整个房间的场景干扰；但估算物体位置时，又必须参考周围环境。为此，SceneMaker的解决方案是：让模型结合全局和局部注意力机制，即图2中提及的统一的位姿估计模型。让它该专注细节时不分心，该顾全大局时不遗漏。

具体实现上，SceneMaker用扩散模型作为基础，把场景图像、物体几何和点云作为条件变量，通过去噪的方式，精准算出物体的位姿数据。如图5所示，在扩散模型中，每个物体由几何token和位姿token（平移、旋转、尺寸）唯一决定，每个DiTBlock包含四种注意力机制，注意力机制相互分工合作：

1. 局部自注意力：让单个物体的位姿和几何token在内部对齐，确保估计位姿时充分考虑物体的几何信息，让模型拿着物体初始模板去匹配位姿；

2. 全局自注意力：让所有物体互相参考，比如杯子要放在茶几上、书本要放在桌子上，不会出现“物体互相穿透”、“悬浮在空中”等荒谬场景；

3. 局部交叉注意力：估算旋转角度时，只关注物体本身的图像和尺寸，不被周围环境干扰。比如不管杯子放在客厅还是卧室，它的旋转角度都能被精准计算；

4. 全局交叉注意力：估算位置和尺寸时，紧盯整个场景的点云和图像。比如根据茶几的大小，判断杯子的尺寸是否合理；根据房间的布局，确定椅子该放在桌子旁边还是墙角。

表1的消融实验证明每个注意力模块的对模型性能都有提升。

△图5 位姿估计模型的全局和局部注意机制

△表1 位姿估计模型消融实验（3）自建大规模开放世界3D场景数据集

由于当下缺乏足够规模的开放世界3D场景数据集，团队基于Objaverse[6] 3D物体数据集，自行构建了20万个合成场景数据集，用于模型训练。如图6所示，每个场景放置2到5个物体，包含每个物体的几何、位姿，以及20个不同相机视角下的RGB图像、分割图和深度图，并且完全开源。

△图6 SceneMaker3D场景数据集样例三、实验结果

如图7、表2和表3所示，在可视化和量化对比中，SceneMaker突破现有方案对室内等使用场景的限制，实现从任意开放世界图像（室内、室外、桌面场景）到基于物体mesh的3D场景重建，且都达到SOTA表现。SceneMaker进一步展示了覆盖合成图像、文生图、真实世界拍摄图像的强大泛化能力，和更加高质量和可控的去遮挡能力。

△图7 SceneMaker与现有方案（MIDI3D[4] Part-Crafter[5]）在室内和开放世界场景下的可视化对比结果

△表2 SceneMaker与现有方案在室内和开放世界场景的量化对比结果

△表3 SceneMaker与现有方案在MIDI3D数据集上的量化对比结果四、应用场景1. 具身智能

具身智能的核心是让机器人理解真实物理空间并完成交互任务。SceneMaker能从真实场景图像中重建高精度、带位姿信息的3D场景（包含室内、室外、桌面等环境），为机器人提供可交互的数字孪生环境，助力机器人完成路径规划、物体抓取、场景导航等任务，解决具身智能在开放世界环境感知与建模的核心痛点。

2. 自动驾驶/无人机

自动驾驶、无人机等领域需要大量仿真场景进行算法训练，但真实场景数据采集成本高、标注难度大。SceneMaker能将真实道路、城市街区、园区环境的图像转化为高精度3D仿真场景，同时解决现实中物体遮挡导致的模型失真问题，为自动驾驶仿真测试、无人机路径模拟提供高保真的虚拟训练环境。

3. 游戏工业建模

游戏开发中，开放世界地图和场景建模是耗时耗力的环节。SceneMaker可实现街道、公园、野外等开放游戏场景的快速3D重建，还能精准还原小众道具（如手办、特殊武器）的几何形态与空间位姿，帮助游戏厂商提升场景制作效率，丰富游戏内物体的多样性。

结语

SceneMaker依托DINO-X万物检测与Triverse 3D生成技术，通过解耦去遮挡模块、统一位姿估计模型及大规模开放数据集三大核心创新，攻克3D场景生成中场景受限、遮挡难题与泛化不足的痛点，实现从真实拍摄、合成图像到文生图的全场景3D重建突破，打开开放世界重建的大门。

从有限到无限的3D场景突破，意味着具身智能的数字孪生、自动驾驶的仿真训练、游戏工业的高效建模等场景将被重新定义。人工智能将更精准感知真实世界，模糊虚拟与现实的边界，为产业落地注入无限可能。

论文链接：

https://arxiv.org/abs/2512.10957

项目主页：

https://idea-research.github.io/SceneMaker/

开源代码：

https://github.com/IDEA-Research/SceneMaker

开源数据：

https://huggingface.co/datasets/LightillusionsLab/SceneMaker

[1] Shi, Yukai, et al. “SceneMaker: Open-set 3D Scene Generation with Decoupled De-occlusion and Pose Estimation Model.” arXiv preprint arXiv:2512.10957 (2025).

[2] DINO-X: https://cloud.deepdataspace.com/.

[3] Triverse: https://triverse.ai/.

[4] Huang, Zehuan, et al. “Midi: Multi-instance diffusion for single image to 3d scene generation.” Proceedings of the Computer Vision and Pattern Recognition Conference. 2025.

[5] Lin, Yuchen, et al. “PartCrafter: Structured 3D Mesh Generation via Compositional Latent Diffusion Transformers.” arXiv preprint arXiv:2506.05573 (2025).

[6] Deitke, Matt, et al. “Objaverse: A universe of annotated 3d objects.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2023.

上一篇：AI智能体成本革命：基础任务效率超人力20倍 | VIP洞察周报

下一篇：《光环》士官长配音演员：AI声音克隆已越界，可能误导粉丝

一张图生成任意场景3D模型，部分遮挡也不怕｜IDEA x 光影焕像联合开源

相关内容

热门资讯