본 논문은 대규모 언어 모델(LLM)을 평가자로 활용하는 패러다임에 대해 다룹니다. 기존의 LLM 평가자 모델들은 주로 비문맥적 상황(예: 지시사항 따르기)에서만 평가되어 왔는데, 본 논문은 외부 정보를 활용하는 문맥적 상황(예: RAG, 요약)에서의 평가가 중요함을 지적합니다. 이를 위해, 다양한 실제 상황을 반영한 2,000개의 응답 쌍을 포함하는 문맥 평가 벤치마크인 ContextualJudgeBench를 제안합니다. 해당 벤치마크는 기존 인간 평가 및 모델 기반 섭동을 활용하여 구축되었으며, 11개의 평가자 모델과 9개의 일반 목적 모델을 이용한 실험 결과, 최첨단 모델조차도 문맥 정보와 조건부 평가 기준에 어려움을 겪는다는 것을 보여줍니다.