An LLM-as-Judge Metric for Bridging the Gap with Human Evaluation in SE Tasks
Created by
Haebom
저자
Xin Zhou, Kisub Kim, Ting Zhang, Martin Weyssow, Luis F. Gomes, Guang Yang, Kui Liu, Xin Xia, David Lo
개요
본 논문은 LLM-as-Ensemble-Judge를 위한 최초의 평가 지표인 SE-Jury를 제시한다. SE-Jury는 코드 스니펫, 패치, 주석 등 생성된 소프트웨어 아티팩트의 정확성을 평가하도록 설계되었다. SE-Jury는 다섯 가지의 개별적인 평가 전략을 정의하고, 동적 팀 선택 메커니즘을 통해 최종 정확성 점수를 생성하기 위해 가장 적합한 판사들의 하위 집합을 팀으로 식별한다. 코드 생성, 자동 프로그램 복구, 코드 요약 등 다양한 소프트웨어 공학 벤치마크에서 기존 자동 지표보다 29.6%에서 140.8%까지 향상된 결과를 보였으며, 인간 평가자와의 합의 수준이 코드 생성 및 프로그램 복구에서 주석자 간 합의에 근접함을 입증했다.
시사점, 한계점
•
시사점:
◦
SE-Jury는 생성된 소프트웨어 아티팩트의 정확성을 평가하는 데 있어 기존 자동 지표보다 인간 평가와 더 높은 상관 관계를 보인다.
◦
SE-Jury는 코드 생성 및 프로그램 복구에서 인간 평가자와의 높은 합의 수준을 달성하여, 확장 가능하고 신뢰할 수 있는 대안으로 제시된다.