Athena-PRM은 복잡한 추론 문제 해결 과정의 각 단계에 대한 보상 점수를 평가하도록 설계된 멀티모달 프로세스 보상 모델(PRM)이다. 고성능 PRM 개발에 필요한 시간과 비용을 절감하기 위해, 약한 완성자와 강한 완성자 간의 예측 일관성을 활용하여 신뢰할 수 있는 프로세스 레이블을 식별한다. Athena-PRM은 5,000개의 샘플만으로 다양한 시나리오와 벤치마크에서 뛰어난 성능을 보이며, ORM 초기화 및 부정 데이터 업샘플링을 통해 PRM의 성능을 향상시킨다. 테스트 시간 확장, 추론 단계 정확성 직접 평가, 보상 랭킹 미세 조정 등 세 가지 시나리오에서 검증되었으며, Qwen2.5-VL-7B를 정책 모델로 사용 시 WeMath에서 10.2점, MathVista에서 7.1점 향상과 VisualProcessBench에서 3.9 F1-score 향상을 달성했다. 또한, Athena-PRM을 활용한 Athena-7B는 다섯 개의 벤치마크에서 기준선보다 우수한 성능을 보였다.