본 논문은 대규모 언어 모델(LLM)을 평가자로 활용하는 연구에 대해 다룹니다. 기존의 지도적 미세조정(SFT) 방법은 복잡한 추론을 요구하는 영역에서 한계를 보이는데, 본 연구는 LLM 평가자의 추론 능력 향상이 실제로 효과적인지 조사합니다. 다양한 평가 작업에 대한 추론 요구 사항 분석을 통해 SFT 성능 향상과 추론 요구 샘플 비율 간의 음의 상관관계를 밝히고, 이러한 한계를 극복하기 위해 판단 중심의 LLM인 JudgeLRM을 제시합니다. JudgeLRM은 판단자별 결과 중심 보상을 사용하는 강화 학습(RL)으로 훈련되며, SFT 및 최첨단 추론 모델보다 우수한 성능을 보입니다. 특히 JudgeLRM-3B는 GPT-4를, JudgeLRM-7B는 DeepSeek-R1을 F1 점수 기준 2.79% 상회하며, 심층 추론을 요구하는 판단 작업에서 뛰어난 성능을 나타냅니다.