Multi-Agent Systems (MAS)의 실제 배포를 위해, 추론 시 검색을 안내하고 품질을 향상시키기 위해 선택적으로 계산 자원을 사용하는 방법을 제시합니다. Multi-Agent System Process Reward Model (MASPRM)은 부분적인 에이전트 간 대화 내용에 대해 에이전트별, 액션별 가치를 할당하며, 추론 시 컨트롤러 역할을 합니다. MASPRM은 단계별 사람의 주석 없이 multi-agent Monte Carlo Tree Search (MCTS) 롤아웃으로부터 학습되며, 반환값을 로컬 목표로 전파합니다. 추론 시 MASPRM은 단계별 빔 서치와 MCTS를 안내하여, 유망한 분기에 계산 자원을 집중하고 조기에 가지치기를 수행합니다. GSM8K 및 MATH에서, 최종 답변에 적용된 outcome reward model (ORM)을 사용한 MASPRM 기반 디코딩은 단일 straight-through MAS 패스보다 exact match (EM) 점수를 각각 +30.7 및 +22.9 포인트 향상시켰습니다. GSM8K에서 훈련된 MASPRM은 재훈련 없이 MATH로 zero-shot 전이가 가능하며, 동일한 예산에서 8.4 EM 포인트를 추가합니다. MASPRM은 에이전트별 진행 상황을 추정하는 플러그인 가치 모델이며, verifier-style 디코더를 보완하여, 보다 신뢰할 수 있고 계산을 고려하는 multi-agent 추론을 가능하게 합니다.