본 논문은 대규모 언어 모델(LLM)의 테스트 시간 확장을 통해 복잡한 추론 문제 해결 능력을 향상시키는 새로운 방법인 적응적 수정 샘플링(AR-Sampling)을 제안합니다. 기존의 자기 수정 방법이 불필요한 토큰 낭비를 초래할 수 있는 문제점을 해결하기 위해, AR-Sampling은 프로세스 감독 보상 모델(PRM)과 트리거 문장을 활용하여 모델이 필요한 단계에서만 자기 수정을 수행하도록 유도합니다. GSM8K와 MATH500 데이터셋에서의 실험 결과, AR-Sampling은 정확도를 향상시키면서 추가 토큰 생성량을 합리적으로 유지하는 것을 보여줍니다.