본 논문은 단계별 감독을 제공하여 LLM의 추론 능력을 향상시키는 Process Reward Models (PRMs)의 광범위한 채택을 가로막는 수동 단계별 주석의 높은 비용과 정적 훈련 데이터의 새로운 오류에 대한 일반화 부족 문제를 해결하기 위해 Adversarially Trained PRMs (\texttt{APRM})을 제안한다. \texttt{APRM}은 Generator($G$)가 PRM($R$)을 속이기 위해 추론 오류를 생성하도록 학습하고, $R$은 이를 동시에 감지하도록 학습하는 방식으로 작동한다. 이러한 상호 작용은 $R$에게 점진적으로 어려운 부정적 예시를 제공하여 수동 단계별 레이블 없이도 새로운 오류에 대한 견고성과 일반화 성능을 향상시킨다. 다양한 수학적 추론 벤치마크에서 \texttt{APRM}은 가장 강력한 PRM 기준선보다 해결사 정확도를 +3.4% 향상시켰고, out-of-distribution 작업에서 +5.3%의 향상을 달성했다.