본 논문은 대규모 언어 모델(LLM)의 급속한 발전에 따라, 시간이 많이 소요되는 인간 평가 대신 LLM 자체를 이용한 자동 평가가 주목받고 있음을 지적합니다. 특히, LLM을 평가자로 활용하는 모델(LLM-as-judge)은 채팅 품질 평가와 같이 상대적으로 단순한 영역에서는 우수한 성능을 보이지만, 추론이 필요한 복잡한 영역에서는 어려움을 겪습니다. 이러한 문제를 해결하기 위해, 강화 학습(RL)을 이용한 평가자 훈련을 제안합니다. 본 논문은 세 가지 주요 기여를 합니다. 첫째, 복잡한 평가 환경에서 발생하는 위치 편향에 강건한 평가자를 훈련할 수 있는 새로운 알고리즘인 EIS-GRPO를 제안합니다. 둘째, 기존 연구에서 다루지 않았던 다양한 추론 설정에서 평가자를 평가하는 새로운 벤치마크인 ReasoningJudgeBench를 소개합니다. 셋째, EIS-GRPO를 사용하여 훈련된 7B 크기의 추론 평가자 J4R을 제시하며, 이는 GPT-4o 및 다른 최고 성능의 소형 평가자보다 6.7% 및 9% 높은 성능을 보이며, JudgeBench와 ReasoningJudgeBench 모두에서 더 큰 GRPO 훈련 평가자의 성능과 동등하거나 우수함을 보여줍니다.