본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상에 영향을 미치는 두 가지 핵심 요소, 즉 (i) 테스트 시 추가적인 연산 자원 할당의 효과와 (ii) 체계적이고 점진적인 추론 방식의 중요성에 주목한다. 이를 연구하기 위해, 레이어드 그래프 내 최단 경로 탐색 문제에 기반한 제어된 환경을 구축했다. 최적의 하향식 동적 프로그래밍 추론 과정으로 훈련된 모델과, 백트래킹을 포함한 더 긴 유효 추론 과정으로 훈련된 모델을 비교했다. 동일한 훈련 토큰 예산을 사용했을 때, 비효율적인 추론 과정으로 훈련된 모델이 보이지 않는 그래프에 더 잘 일반화되는 것을 발견했다. 이러한 이점은 단순히 추론 과정의 길이 때문이 아니었으며, 대신 모델의 다음 토큰 예측에 대한 신뢰도와 일반화 성능 간의 상관관계를 확인했다.