본 논문은 LLM 기반 평가 모델의 성능 향상을 위한 강화 학습 접근 방식인 J1을 제시합니다. J1은 검증 가능한 보상을 통해 사고 과정을 장려하고 판단 편향을 완화하여, 검증 가능 및 불가능한 프롬프트 모두를 판단 과제로 변환합니다. 8B 또는 70B 크기의 모델로 학습되었을 때 기존 모델들(DeepSeek-R1 증류 모델 포함)을 능가하는 성능을 보이며, 더 작은 모델임에도 불구하고 o1-mini 및 일부 벤치마크에서는 R1을 능가하는 결과를 제시합니다. Pairwise-J1 대 Pointwise-J1 모델, 오프라인 대 온라인 학습, 보상 전략, 시드 프롬프트, 사고 길이 및 내용의 변화 등 다양한 요소들을 비교 분석하여 모델이 평가 기준을 제시하고, 자체 생성 참조 답변과 비교하고, 모델 응답의 정확성을 재평가함으로써 더 나은 판단을 내리는 것을 확인했습니다.