본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위해 테스트 시간 계산을 확장하는 새로운 프레임워크인 AnytimeReasoner를 제시합니다. 기존의 강화 학습(RL) 기반 접근 방식은 추론 과정의 끝에서 얻은 검증 가능한 보상을 극대화하지만, 고정된 토큰 예산 하에서 최종 성능만을 최적화하여 훈련 및 배포의 효율성을 저해합니다. AnytimeReasoner는 다양한 토큰 예산 제약 조건 하에서 토큰 효율성과 추론의 유연성을 향상시키는 것을 목표로, 사전 분포에서 샘플링된 토큰 예산에 맞춰 추론 과정을 자르고 각 잘린 추론에 대해 최적의 답변을 요약하여 검증합니다. 이를 통해 추론 과정에 검증 가능한 밀집 보상을 도입하여 RL 최적화에서 더 효과적인 크레딧 할당을 가능하게 합니다. 추론 및 요약 정책을 분리된 방식으로 최적화하여 누적 보상을 극대화하고, Budget Relative Policy Optimization (BRPO)라는 새로운 분산 감소 기법을 도입하여 추론 정책을 강화할 때 학습 과정의 강건성과 효율성을 높입니다. 수학적 추론 작업에 대한 실험 결과는 제안된 방법이 다양한 사전 분포 하에서 모든 추론 예산에 걸쳐 GRPO를 일관되게 능가하며, 훈련 및 토큰 효율성을 모두 향상시킨다는 것을 보여줍니다.