본 논문은 다중 모달 대규모 언어 모델(MLLM)의 복잡한 다단계 추론 능력 향상을 위해 프로세스 보상 모델(MM-PRM)을 제안한다. 기존 MLLM의 주요 한계점인 중간 추론 단계에 대한 세분화된 감독 부족을 해결하기 위해, 다양한 수학 추론 데이터로 훈련된 강력한 다중 모달 모델(MM-Policy)과 검증 가능한 답변을 포함하는 10,000개의 다중 모달 수학 문제로 구성된 MM-K12 데이터셋을 활용한다. 몬테 카를로 트리 탐색(MCTS) 기반 파이프라인을 통해 70만 개 이상의 단계별 주석을 자동으로 생성하고, 이를 이용하여 훈련된 MM-PRM은 Best-of-N 추론 설정에서 후보 추론 경로를 평가한다. 실험 결과, MM-PRM은 MM-K12 테스트 세트와 OlympiadBench, MathVista 등의 외부 벤치마크에서 모두 성능 향상을 보였다. 소프트 라벨, 작은 학습률, 경로 다양성이 PRM 성능 최적화에 효과적임을 확인하였으며, 프로세스 감독이 다중 모달 추론 시스템의 논리적 강건성 향상에 효과적인 도구임을 보여준다. 모든 코드와 데이터는 깃허브에서 공개한다.