每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

SPICE:用于问题清晰度、测试覆盖率和工作量估算的自动化 SWE-Bench 标记管道

Created by
  • Haebom

作者

Gustavo A. Oliva、Gopi Krishnan Rajbahadur、Aaditya Bhatia、张浩翔、陈一浩、陈志龙、Arthur Leung、Dayi Lin、Boyuan Chen、Ahmed E. Hassan

大纲

本文提出了一种自动化标注流程 SPICE,旨在解决生成高质量标注数据集的挑战,而这些数据集对于学习和评估软件工程中的基础模型至关重要。SPICE 结合了上下文感知的代码探索、基于证据的提示和多遍共识机制,能够生成接近专家级注释的标签。SPICE 基于超过 800 个 SWE-Gym 实例的标注经验而设计,与 SWE-bench 验证数据表现出高度一致性,并将标注 1,000 个实例的成本从约 100,000 美元大幅降低至 5.10 美元。此外,我们还发布了 SPICE Bench 数据集,这是一个包含来自 291 个开源 SWE-Gym 项目的 6,802 个 SPICE 标注实例的新数据集,以及 SPICE 工具。

Takeaways, Limitations

Takeaways:
它可以大大降低创建用于学习软件工程中基本模型的高质量数据集的成本。
创建大规模数据集有助于提高基本模型的性能。
通过发布 SPICE 工具和 SPICE Bench 数据集为研究社区做出贡献。
Limitations:
SPICE 性能取决于所使用的提示和模型的质量。
目前,它专注于特定类型的注释(问题清晰度、测试覆盖率和工作量估算)。需要扩展到其他类型的注释。
由于它基于 SWE-Gym 数据集,因此有必要验证对其他数据集的泛化性能。
👍