본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 테스트 시간 계산 확장 전략, 특히 수학 문제 해결과 같은 작업에서의 전략을 연구합니다. 기존의 자기 일관성(Self-Consistency, SC) 방법과 보상 모델(verifier)을 사용하는 방법 외에, 생성적 보상 모델(Generative Reward Model, GenRM)을 이용한 새로운 방법이 제시되었으며, GenRM은 검증을 다음 토큰 예측 작업으로 재구성하여 추론 시간 확장을 가능하게 합니다. 본 논문은 고정된 추론 예산 하에서 GenRM과 SC를 비교 평가하여, 대부분의 실용적인 추론 예산에서 SC가 GenRM보다 계산 효율적임을 밝힙니다. 또한 GenRM 패러다임에 대한 추론 확장 법칙을 도출하여, 계산 최적화된 추론은 검증 수를 늘리는 것보다 솔루션 생성을 더 적극적으로 확장하는 것을 선호함을 보여줍니다. 결론적으로, 본 논문은 솔루션 생성과 검증의 균형을 맞춤으로써 테스트 시간 확장을 최적화하는 데 대한 실질적인 지침을 제공합니다.