本文重点关注“建造者行为预测”(BAP),它是“我的世界”(Minecraft)协作建造任务(MCBT)的一个子任务,旨在提升人工智能代理的语言理解、环境感知和物理世界行为。为了应对现有 BAP 在评估、训练数据和建模方面的挑战,我们提出了 BAP v2。BAP v2 提供了改进的评估基准、更公平、更具洞察力的指标以及空间推理能力,这些都是影响性能的关键因素。为了解决数据稀缺问题,我们生成了各种类型的合成 MCBT 数据,并利用它们来增强模型的空间能力。我们提出了一个全新的 SOTA 模型 Llama-CRAFTS,它利用改进的输入表示在 BAP v2 中实现了 53.0 的 F1 分数。虽然这比之前的工作提高了 6 个百分点,但它仍然凸显了该任务的挑战,并为未来的研究奠定了基础。