每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

PerfBench:代理可以解决现实世界的性能错误吗?

Created by
  • Haebom

作者

斯潘丹·加尔格、Roshanak Zilouchian Moghaddam、Neel Sundaresan

大纲

本文重点介绍如何检测和修复性能缺陷。性能缺陷是指软件效率低下、浪费计算资源且不会导致功能错误的缺​​陷。现有的自动化缺陷修复基准测试侧重于功能正确性,这限制了它们评估性能缺陷等非功能性问题的能力。因此,作者提出了 PerfBench,这是一个基准测试,包含从 GitHub 上流行的 .NET 代码库中提取的 81 个实际性能缺陷修复。PerfBench 提供了一个评估工具,允许代理生成自己的性能基准测试,并通过比较开发人员和代理修复的执行指标来验证修复效果。我们的研究表明,最先进的编码代理在性能优化任务中举步维艰,OpenHands 代理的成功率约为 3%。作者开发了 OpenHands-Perf-Agent,它集成了性能感知工具和指南,成功率约为 20%。

Takeaways,Limitations

Takeaways:
PerfBench 有助于根据实际性能错误修复工作来评估代理的实际性能。
它展示了与性能相关的工具和指南的重要性,并提出了提高代理性能的具体方法。
它为性能错误修复领域的代理开发提供了一个新的方向。
Limitations:
OpenHands-Perf-Agent 的成功率仍然较低,代理性能还有很大的提升空间。
由于 PerfBench 仅限于 .NET 环境,因此需要进一步研究以确定其对其他环境的通用性。
由于性能缺陷的性质,基准测试可能难以扩展和维护。
👍