本文提出了 SE-Jury,这是 LLM-as-Ensemble-Judge 的首个评估指标。SE-Jury 旨在评估生成的软件工件(例如代码片段、补丁和注释)的正确性。SE-Jury 定义了五种不同的评估策略,并通过动态团队选择机制,将一部分评委确定为团队,以生成最终的正确性分数。与现有的自动化指标相比,SE-Jury 在各种软件工程基准测试(包括代码生成、自动程序修复和代码摘要)上取得了 29.6% 到 140.8% 的提升。此外,SE-Jury 还表明,与人工评估者的一致性接近于注释者之间在代码生成和程序修复方面的一致性。