본 논문은 대규모 데이터 기반 개발에 초점을 맞춰, 5가지 평가 과제(pairwise, step-level, reference-free 및 reference-based verification, single rating)와 여러 추론 평가 도메인에 걸쳐 250만 개의 샘플로 구성된 데이터셋을 구축합니다. 이를 활용하여 8B 및 20B (3.6B active) 파라미터 크기의 FARE (Foundational Automatic Reasoning Evaluators)를 단순 반복 거부-샘플링 지도 학습 (SFT) 방식으로 훈련합니다. FARE-8B는 더 큰 RL 기반 평가자들과 경쟁하며, FARE-20B는 오픈 소스 평가자 분야에서 새로운 표준을 제시하며, 70B+ 전문 평가자를 능가합니다. FARE는 추론 시간 재정렬자로 사용되어 MATH에서 거의 오라클 수준의 성능을 달성하고, 강화 학습 훈련의 검증자로 사용되어 최대 14.1%의 성능 향상을 보입니다. 또한, FARE를 기반으로 지속적으로 미세 조정된 FARE-Code는 gpt-oss-20B보다 테스트 케이스 품질 평가에서 65% 더 나은 성능을 보입니다.