본 논문은 대규모 언어 모델(LLM)의 빠른 발전 속도에 맞춰, 시간이 많이 걸리는 인간 평가 대신 LLM 자체를 이용한 자동 평가 방식에 초점을 맞춥니다. 특히, LLM을 평가자로 활용하는 생성형 평가 모델이 단순한 영역에서는 우수하지만, 추론이 필요한 복잡한 영역에서는 부족함을 보이는 점을 해결하기 위해 강화 학습(RL)을 이용한 평가자 훈련을 제시합니다. 핵심 기여는 세 가지로, (1) 복잡한 평가 환경에서 발생하는 위치 편향에 강인한 EIS-GRPO 알고리즘을 제안하고, (2) 기존 연구에서 다루지 않은 다양한 추론 환경에서 평가자를 평가하는 ReasoningJudgeBench 벤치마크를 도입하며, (3) EIS-GRPO로 훈련된 7B 매개변수의 J4R 평가자를 제시하여 GPT-4o 및 다른 소규모 평가자보다 우수한 성능을 보임을 증명합니다.