JudgeBench: A Benchmark for Evaluating LLM-based Judges
Created by
Haebom
저자
Sijun Tan, Siyuan Zhuang, Kyle Montgomery, William Y. Tang, Alejandro Cuadron, Chenguang Wang, Raluca Ada Popa, Ion Stoica
개요
LLM 기반 평가자는 사람의 평가를 대체할 확장 가능한 대안으로 등장하여 모델을 평가하고, 비교하고, 개선하는 데 점점 더 많이 사용되고 있습니다. 하지만 LLM 기반 평가자 자체의 신뢰성은 거의 조사되지 않았습니다. LLM이 더욱 발전함에 따라 응답이 더욱 정교해져 더 강력한 평가자가 필요합니다. 기존 벤치마크는 주로 인간의 선호도와의 일치에 중점을 두지만, 크라우드소싱된 인간의 선호도가 사실적이고 논리적인 정확성의 척도가 되지 못하는 더 어려운 작업은 고려하지 못하는 경우가 많습니다. 이를 해결하기 위해 본 논문에서는 LLM 기반 평가자를 객관적으로 평가하는 새로운 평가 프레임워크를 제안합니다. 이 프레임워크를 기반으로, 지식, 추론, 수학, 코딩에 걸쳐 어려운 응답 쌍을 평가하는 LLM 기반 평가자를 위한 벤치마크인 JudgeBench를 제안합니다. JudgeBench는 기존의 어려운 데이터셋을 객관적인 정확성을 반영하는 선호도 레이블이 있는 어려운 응답 쌍으로 변환하는 새로운 파이프라인을 활용합니다. 프롬프트 기반 평가자, 미세 조정된 평가자, 다중 에이전트 평가자 및 보상 모델의 종합적인 평가는 JudgeBench가 이전 벤치마크보다 훨씬 더 큰 과제를 제시하며, 많은 강력한 모델(예: GPT-4o)이 무작위 추측보다 약간 나은 성능을 보임을 보여줍니다. 전반적으로 JudgeBench는 점점 더 발전된 LLM 기반 평가자를 평가하는 신뢰할 수 있는 플랫폼을 제공합니다. 데이터와 코드는 https://github.com/ScalerLab/JudgeBench에서 확인할 수 있습니다.
시사점, 한계점
•
시사점: LLM 기반 평가자의 신뢰성을 객관적으로 평가하는 새로운 벤치마크인 JudgeBench 제시. 기존 벤치마크보다 훨씬 어려운 과제를 제시하여 LLM 기반 평가자의 성능을 더욱 정확하게 평가 가능. 지식, 추론, 수학, 코딩 등 다양한 영역에서의 평가 가능. 향상된 LLM 기반 평가자 개발에 기여.
•
한계점: JudgeBench의 평가 기준이 객관적인 정확성에 기반하지만, 모든 유형의 LLM 응답의 질을 완벽하게 포착하지 못할 가능성 존재. 다양한 유형의 LLM 및 평가 기준에 대한 추가적인 연구 필요. 현재 벤치마크에 포함된 데이터셋의 범위와 양에 대한 제한. 인간의 평가와의 비교 분석에 대한 추가 연구 필요.