본 논문은 대규모 언어 모델(LLM)을 활용한 평가자(judge)의 정확도를 높이기 위해, 코드 실행기를 통합하는 새로운 강화 학습(RL) 프레임워크인 TIR-Judge를 제안합니다. TIR-Judge는 검증 가능한(verifiable) 및 검증 불가능한(non-verifiable) 도메인에 걸쳐 다양한 학습, 유연한 판단 형식(pointwise, pairwise, listwise) 지원, 증류(distillation) 없이 초기 모델에서 직접 시작하는 반복적 RL을 기반으로 합니다. 7개의 공개 벤치마크에서 기존 평가자들을 능가하며, 특히 증류 없이 훈련된 TIR-Judge-Zero는 증류된 모델과 유사한 성능을 보입니다.