본 논문은 대규모 언어 모델(LLM)의 빠른 발전 속도에 발맞춰, 시간이 많이 소요되는 인간 평가에서 LLM 자체를 이용한 자동 평가로 전환되는 추세를 다룹니다. 특히, 다른 모델의 출력을 평가하고 비판하는 생성형 평가자인 'LLM-as-judge' 모델에 초점을 맞춥니다. 기존의 'LLM-as-judge' 모델은 채팅 품질과 같은 단순한 영역에서는 뛰어나지만, 추론이 필요한 복잡한 영역에서는 어려움을 겪는다는 점을 지적합니다. 이를 해결하기 위해 강화 학습(RL)을 이용한 평가자 훈련을 탐구하고, 세 가지 주요 기여를 제시합니다. 첫째, 복잡한 평가 환경에서 발생하는 위치 편향에 강인한 평가자를 훈련할 수 있는 EIS-GRPO 알고리즘을 제안합니다. 둘째, 기존 연구에서 다루지 않은 다양한 추론 환경에서 평가자를 평가하는 ReasoningJudgeBench 벤치마크를 소개합니다. 셋째, EIS-GRPO로 훈련된 7B 크기의 Judge for Reasoning (J4R) 모델을 제시하며, 이는 GPT-4o 및 다른 소규모 평가자보다 6.7%와 9% 더 우수한 성능을 보이며, JudgeBench와 ReasoningJudgeBench 모두에서 대규모 GRPO 훈련된 평가자와 동등하거나 우수한 성능을 달성합니다.