点击下方卡片关注「3D视觉工坊」公众号选择星标干货第一时间送达来源3D视觉工坊「3D视觉从入门到精通」知识星球(点开有惊喜) 星球内有20多门3D视觉系统课程、3DGS独家系列视频教程、顶会论文最新解读、海量3D视觉行业源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研欢迎加入论文信息标题SceneScribe-1M: A Large-Scale Video Dataset with Comprehensive Geometric and Semantic Annotations作者Yunnan Wang, Kecheng Zheng, Jianyuan Wang, Minghao Chen, David Novotny, Christian Rupprecht, Yinghao Xu, Xing Zhu, Wenjun Zeng, Xin Jin, Yujun Shen机构1Shanghai Jiao Tong University 2Ant Group 3Visual Geometry Group, University of Oxford 4Meta AI 5Ningbo Institute of Digital Twin, Eastern Institute of Technology, Ningbo 6Zhejiang Key Laboratory of Industrial Intelligence and Digital Twin原文链接https://arxiv.org/abs/2604.07990代码链接https://huggingface.co/datasets/wangyunnan/SceneScribe-1M导读3D几何感知与视频合成的结合催生了对富含语义信息及时空信息的海量视频数据的需求。虽然现有的数据集在3D理解或视频生成方面都有所突破但至今仍缺乏能够同时满足这两个领域需求的综合性数据资源。为填补这一空白我们推出了SceneScribe-1M这一全新的大规模多模态视频数据集。该数据集包含一百万段真实场景的视频每段视频都配有详细的文字描述、精确的摄像机参数、高精度的深度图以及连贯的3D点云数据。我们通过多种下游任务来验证SceneScribe-1M的实用价值包括单目深度估计、场景重建、动态点跟踪等任务同时也涵盖了有摄像机控制或无摄像机控制的文本到视频的合成任务。通过开源SceneScribe-1M我们希望为相关研究提供有力的基准参考推动那些既能感知动态3D世界又能生成逼真、可控视频内容的模型的发展。效果展示SceneScribe-1M提供了超过一百万个动态场景总时长达4,000小时以上。这些场景都配有详尽的语义和几何标注信息。引言近年来三维几何感知与视频合成的快速发展极大地推动了世界基础模型的研究。这些技术共同使世界基础模型能够在动态环境中有效感知、模拟和交互。世界基础模型所集成的这些能力对于促进增强现实、机器人技术和自动驾驶等领域的变革性发展至关重要。然而足够大规模且高质量数据集的稀缺限制了现有模型在三维感知和视频合成两方面的潜力从而进一步阻碍了世界基础模型的发展前景。当前解决三维感知相关数据挑战的努力可分为两大范式。一种常见策略是在虚拟引擎中采用数据合成流程自动生成真实相机位姿及对应的几何标注。然而这些方法引入了领域差异并忽略了复杂的物理交互。另一种流行方法则尝试通过运动恢复结构或即时定位与地图构建系统高效地标注真实世界数据。除了静态场景中相机轨迹标注的稀疏性之外动态场景的标注规模和多样性也受到计算开销的限制。除了三维感知具有丰富语义信息的视频生成数据对于构建世界基础模型也至关重要。值得注意的是当前的开放世界数据集在一定程度上缓解了以往研究中存在的数据有限和标注稀缺的问题。然而由于这些数据集是为视频生成任务量身定制的它们缺乏几何标注因此未能充分满足世界基础模型所需的语义与运动多样性。尽管上述单模态数据集取得了进展但世界基础模型的进步仍然从根本上受限于缺乏能够全面捕捉三维几何与细粒度语义属性的大规模数据集。在本文中我们提出了SceneScribe-1M这是一个大规模多模态视频数据集旨在促进三维几何感知与视频合成的关键交叉领域。通过引入专有领域的强大模型我们调动了超过1000个GPU来对大规模视频执行标注流程。SceneScribe-1M包含一百万个野外场景视频总时长超过4000小时每个视频都配有详细的文本描述、精确的相机参数、连续的视频深度以及一致的三维点轨迹。重要的是我们的数据筛选标准基于语义和几何标注涵盖了四个关键方面视频参数、语义信息、相机运动和物体运动。我们根据这些指标对原始视频进行细致检查以确保内容多样性和运动丰富性。我们进一步设计了针对SceneScribe-MVS子集的过滤机制旨在适应偏好静态物体的多视角任务。该过滤器将相机运动与物体运动解耦在不削弱相机运动强度的前提下控制动态物体的包含程度。为了建立严格的基准测试我们利用SceneScribe-1M进行核心的三维感知任务包括单目深度估计、场景重建和动态点跟踪。此外SceneScribe-1M作为推动文本/姿态到视频合成等生成任务的关键资源支持对相机运动的精确视角控制。主要贡献我们的主要贡献如下全面的视频标注SceneScribe-1M包含超过4000小时的视频数据并附有必要的几何和语义标注。这些标注提供了一个统一的资源可同时促进大规模三维感知和视频生成任务。具有语义与运动多样性的精选视频SceneScribe-1M基于语义和几何指标进行内容与运动多样性的筛选。我们还为SceneScribe-MVS引入了多视角过滤器以在保留相机运动的同时限制动态物体。广泛的下游评估SceneScribe-1M的潜在多功能性通过其在多种下游任务包括三维几何感知和视频合成中的适用性得到验证同时也凸显了该数据集的有效性和质量。方法实验结果为了全面评估标注流程的可靠性和适用性我们在SceneScribe-1M上进行了多项下游任务包括单目深度估计、场景重建、动态点跟踪和生成任务。定性结果如图8所示。单目深度估计MegaSaM利用时序信息优化连续视频深度使得逐帧深度图适用于单目深度估计任务。因此我们将SceneScribe与原始的TartanAir数据集整合重新训练了MoGe。值得注意的是由于TartanAir数据集是合成的它天然提供了高质量的标注。因此整合SceneScribe-1M所带来的性能提升证明了我们标注流程的有效性。场景重建由于SceneScribe-1M提供了连续视频深度和相机位姿的标注它可以直接应用于VGGT的三维重建和MonST3R的四维重建。如表3(a)所示我们首先评估了SceneScribe-1M对VGGT三维重建性能的影响。定量结果表明SceneScribe-1M有助于相机位姿估计但略微降低了点图估计的性能这与图8(b)中的定性结果一致。在表3(b)中我们在Sintel数据集上评估了四维重建能力以衡量模型在不同动态场景条件下的性能。SceneScribe进一步提升了MonST3R的相机位姿估计能力同时保持了其在深度估计上的优势。此外我们在图8(c)中提供了四维重建的可视化结果。动态点跟踪SceneScribe-1M包含基于MegaSAM几何格式由TAPIP3D标注的点轨迹这使得它适用于CoTracker3和SpatialTrackerV2。如表4所示在TAP-Vid和TAPVid-3D基准上的结果表明SceneScribe-1M达到了与Kubric、PointOdyssey和Dynamic Replica等标准数据集相当的标注精度。同时大规模标注进一步保证了动态点跟踪的泛化能力如图8(d)和8(e)的可视化结果所示。总结 未来工作在这项工作中我们回应了对于能够同时推动三维几何感知和视频合成发展的大规模数据集的迫切需求。通过引入SceneScribe-1M——一个被全面标注了详细语义和三维信息的多模态大规模视频数据集——我们弥合了这两个领域之间的重要鸿沟。各项基准测试表明SceneScribe-1M支持广泛的下游任务包括深度估计、场景重建、动态点跟踪以及相机可控的文本到视频生成。通过公开SceneScribe-1M我们旨在促进更广泛的研究进展并为开发能够生成富含语义且符合物理规律的视频内容的世界基础模型提供一个统一的资源。对更多实验结果和文章细节感兴趣的读者可以阅读一下论文原文~本文仅做学术分享如有侵权请联系删文。3D视觉方向论文辅导来啦可辅导SCI期刊、CCF会议、本硕博毕设、核心期刊等。添加微信cv3d001备注姓名方向单位邀请入群。