本文探讨了开发一个能够实现空间理解、三维几何推理、物体关系以及机器人操作的策略模型所面临的挑战。现有的三维点云模型缺乏语义抽象,二维图像编码器在空间推理方面也存在困难。为了应对这些挑战,我们提出了空间增强操作模型 (SEM),这是一个基于扩散的新型策略框架,它从两个互补的视角明确地增强了空间理解。空间增强器利用三维几何上下文来增强视觉表征,而机器人状态编码器则通过基于图的关节依赖关系建模来捕捉可感知操作的结构。通过集成这些模块,SEM 显著增强了空间理解,从而实现了稳健且可泛化的操控,其性能在各种任务中均超越了现有的基准模型。