본 논문은 대규모 언어 모델(LLM)의 추론 시간 스케일링 알고리즘을 안내하는 데 중요한 역할을 하는 프로세스 보상 모델(PRM)의 보정 문제를 다룬다. 특히 최첨단 PRM조차도 제대로 보정되지 않아, 부분 추론 단계가 최종 정답으로 이어질 성공 확률을 과대평가하는 경향이 있음을 발견했다. 이를 해결하기 위해, 퀀타일 회귀를 통해 PRM 출력을 실제 성공 확률에 더 잘 맞추는 보정 방법을 제시한다. 보정된 성공 추정치와 관련 신뢰 구간을 활용하여, 부분 추론 궤적이 정답을 산출할 가능성에 따라 계산 예산을 동적으로 조정하는 instance-adaptive scaling (IAS) 프레임워크를 도입한다. 수학적 추론 벤치마크 실험 결과, 제안하는 PRM 보정 방법은 낮은 보정 오류를 달성하며, IAS 전략은 최종 정답 정확도를 유지하면서 추론 비용을 절감하는 것을 확인했다.