每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

一个 LLM-as-Judge 指标,用于弥补 SE 任务中与人工评估的差距

Created by
  • Haebom

作者

周鑫、Kisub Kim、张婷、Martin Weyssow、Luis F. Gomes、Guang Yang、Kui Liu、Xin Xia、David Lo

大纲

本文提出了 SE-Jury,这是 LLM-as-Ensemble-Judge 的首个评估指标。SE-Jury 旨在评估生成的软件工件(例如代码片段、补丁和注释)的正确性。SE-Jury 定义了五种不同的评估策略,并通过动态团队选择机制,将一部分评委确定为团队,以生成最终的正确性分数。与现有的自动化指标相比,SE-Jury 在各种软件工程基准测试(包括代码生成、自动程序修复和代码摘要)上取得了 29.6% 到 140.8% 的提升。此外,SE-Jury 还表明,与人工评估者的一致性接近于注释者之间在代码生成和程序修复方面的一致性。

Takeaways, Limitations

Takeaways:
在评估生成的软件工件的准确性方面,SE-Jury 与人工评估的相关性比现有的自动化指标更高。
SE-Jury 在代码生成和程序修复方面与人类评估者实现了高度一致的水平,使其成为一种可扩展且可靠的替代方案。
Limitations:
论文中没有具体说明Limitations。
👍