G-CUT3R 提出了一种新颖的前馈方法,用于引导 3D 场景重建,通过整合先验信息来增强 CUT3R 模型。与现有仅依赖输入图像的前馈方法不同,它利用了现实世界场景中常见的辅助数据,例如深度、相机校准和相机位置。我们提出了一种轻量级的 CUT3R 修改方案,为每种模态集成专用编码器,并通过零卷积将它们与 RGB 图像标记融合。这种灵活的设计允许在推理过程中无缝集成任意组合的先验信息。在多个基准测试和包括 3D 重建在内的多视图任务上的评估表明,所提出的方法实现了显著的性能提升,有效利用了可用的先验信息,并保持了与多种输入模态的兼容性。