Judge Reliability Harness: Stress Testing the Reliability of LLM Judges
Created by
Haebom
Category
Empty
저자
Sunishchal Dev, Andrew Sloan, Joshua Kavner, Nicholas Kong, Morgan Sandler
💡 개요
본 논문은 LLM 기반 채점기의 신뢰성을 효과적으로 검증하기 위한 오픈 소스 도구인 'Judge Reliability Harness'를 제안한다. 이 도구는 다양한 AI 벤치마크 데이터셋과 LLM 채점기 설정을 기반으로 이진 판단 정확도 및 순위형 평가 성능을 테스트하는 검증 도구를 생성한다. 연구진은 네 가지 최신 LLM 채점기를 네 가지 벤치마크에 걸쳐 평가하여 모델 및 입력 변화 유형에 따른 성능 편차를 확인하였고, 이는 LLM 채점기의 견고성 개선 기회를 시사한다.
🔑 시사점 및 한계
•
LLM 기반 채점기는 텍스트 형식 변경, 바꿔쓰기, 내용 길이 변화, 정답 반전 등 사소한 입력 변화에도 일관성 없는 성능을 보일 수 있어 신뢰성 검증이 필수적이다.
•
평가된 LLM 채점기 중 어느 것도 본 논문의 도구를 사용하여 테스트했을 때 모든 벤치마크에서 일관적으로 신뢰할 수 있는 성능을 보이지 않았다.
•
제안된 'Judge Reliability Harness'는 LLM 채점기의 신뢰성을 체계적으로 스트레스 테스트하고 잠재적 취약점을 식별하는 데 유용한 도구이다.