본 논문은 다중 모드 수학 추론에서 프로세스 보상 모델(PRM)의 잠재력을 탐구하는 연구입니다. 기존의 단일 모드 LLMs에 비해 다중 모드 환경에서 PRM을 적용하는 데는 고품질 데이터 부족, 자동화된 프로세스 라벨링 부재, 보상 해킹 문제 등의 어려움이 존재합니다. 이를 해결하기 위해, 본 논문에서는 세 단계로 구성된 URSA 프레임워크를 제시합니다. 먼저, 대규모 다중 모드 사고 과정(CoT) 추론 데이터셋인 MMathCoT-1M을 구축하여 강력한 기반 MLLM인 URSA-8B를 학습시킵니다. 다음으로, 자동화된 프로세스를 통해 프로세스 감독 데이터를 생성하고, DualMath-1.1M을 활용하여 URSA-8B-RM을 학습시킵니다. 마지막으로, 다중 모드 PRM 기반 온라인 강화 학습 방법인 PS-GRPO를 제안하여 URSA-8B-PS-GRPO를 개발합니다. 실험 결과, URSA-8B-PS-GRPO는 6개의 벤치마크에서 Gemma3-12B와 GPT-4o를 평균 8.4%와 2.7% 개선된 성능을 보였습니다.