本文重点探讨了基于模仿学习的视觉运动策略在机器人操作中同时利用视觉和本体感受状态信息的局限性。现有方法经实验证明,它们过度依赖本体感受状态信息,导致训练数据过拟合和空间泛化能力较差。因此,我们提出了一种“无状态策略”,该策略消除了本体感受状态信息,仅基于视觉信息预测动作。该策略建立在相对手部执行器动作空间上,并从双广角腕部摄像头接收与任务相关的完整视觉信息。实验结果表明,与基于状态的策略相比,无状态策略在各种机器人实现和任务(包括拾取放置、衬衫折叠和复杂的全身操作)中显著提高了空间泛化性能(高度泛化率从 0% 提高到 85%,水平泛化率从 6% 提高到 64%)。此外,该策略在数据效率和跨实现适应性方面也表现出优势,增强了其在实际部署中的实用性。