강화 학습 기반의 후처리 기법이 대규모 추론 모델(LRM)의 다단계 추론을 가능하게 하는 데 중요하지만, 현재의 보상 체계는 일반적으로 결과 중심적이다. 본 논문은 PM4GRPO를 제안하는데, 이는 표준 답변/형식 보상에 추론 과정에 대한 신호를 추가하는 Reasoning-aware Group Relative Policy Optimization (GRPO) 기법이다. 이를 위해, 프로세스 마이닝 기술을 활용하여 정책 모델의 추론이 사전 훈련된 교사 모델과 얼마나 가깝게 일치하는지를 측정하는 스칼라 적합성 보상을 계산한다. 5개의 벤치마크에 대한 실험 결과는 PM4GRPO가 GRPO 기반 후처리에 대한 기존 방법론보다 유의미하게 우수함을 보여준다.