本文提出了一种自动化标注流程 SPICE,旨在解决生成高质量标注数据集的挑战,而这些数据集对于学习和评估软件工程中的基础模型至关重要。SPICE 结合了上下文感知的代码探索、基于证据的提示和多遍共识机制,能够生成接近专家级注释的标签。SPICE 基于超过 800 个 SWE-Gym 实例的标注经验而设计,与 SWE-bench 验证数据表现出高度一致性,并将标注 1,000 个实例的成本从约 100,000 美元大幅降低至 5.10 美元。此外,我们还发布了 SPICE Bench 数据集,这是一个包含来自 291 个开源 SWE-Gym 项目的 6,802 个 SPICE 标注实例的新数据集,以及 SPICE 工具。