Athena-PRM은 복잡한 추론 문제 해결 과정에서 각 단계의 보상 점수를 평가하기 위해 설계된 다중 모드 프로세스 보상 모델(PRM)입니다. 고성능 PRM 개발에는 단계별 추론 단계 주석이 필요하기 때문에 상당한 시간과 재정적 투자가 필요합니다. 몬테카를로 추정과 같은 기존의 자동 라벨링 방법은 노이즈가 많은 라벨을 생성하고 상당한 계산 비용이 발생합니다. 본 논문에서는 약한 완성자와 강한 완성자 간의 예측 일관성을 신뢰할 수 있는 프로세스 라벨을 식별하는 기준으로 활용하여 고품질 프로세스 라벨 데이터를 효율적으로 생성하는 방법을 제안합니다. Athena-PRM은 단 5,000개의 샘플만으로 다양한 시나리오와 벤치마크에서 뛰어난 효과를 보입니다. 또한, ORM 초기화 및 부정적 데이터에 대한 업샘플링이라는 두 가지 효과적인 전략을 개발하여 PRM의 성능을 향상시켰습니다. 테스트 시간 스케일링 검증, 추론 단계 정확성 직접 평가, 보상 순위 미세 조정의 세 가지 구체적인 시나리오에서 이 방법을 검증했습니다. Athena-PRM은 여러 벤치마크와 시나리오에서 일관되게 우수한 성능을 달성합니다. 특히, Qwen2.5-VL-7B를 정책 모델로 사용할 때, Athena-PRM은 WeMath에서 10.2점, MathVista에서 7.1점의 성능 향상을 보였습니다. 또한, VisualProcessBench에서 최첨단(SoTA) 결과를 달성했으며 이전 SoTA보다 3.9 F1-점수 향상을 보였습니다. Athena-PRM을 보상 모델로 활용하여 보상 순위 미세 조정을 통해 Athena-7B를 개발했으며, 다섯 개의 벤치마크에서 기준 모델보다 상당한 차이로 성능이 향상되었습니다.