본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위해 테스트 시간 계산을 확장하는 새로운 프레임워크인 AnytimeReasoner를 제시합니다. 기존 강화 학습(RL) 기반 방법들은 고정된 토큰 예산 하에서 최종 성능만을 최적화하지만, AnytimeReasoner는 다양한 토큰 예산 제약 조건 하에서 토큰 효율성과 추론의 유연성을 향상시키는 것을 목표로 합니다. 이는 사전 분포에서 샘플링된 토큰 예산에 맞춰 추론 과정을 자르고, 각 잘린 추론에 대한 최적의 답변을 요약하여 검증함으로써 추론 과정에 검증 가능한 밀집 보상을 도입하여 RL 최적화에서 더 효과적인 크레딧 할당을 가능하게 합니다. 추론 및 요약 정책을 분리하여 누적 보상을 극대화하고, Budget Relative Policy Optimization (BRPO)라는 새로운 분산 감소 기법을 도입하여 학습 과정의 강건성과 효율성을 향상시킵니다. 수학적 추론 작업에 대한 실험 결과는 제안된 방법이 다양한 사전 분포 하에서 모든 추론 예산에 걸쳐 GRPO를 일관되게 능가하며, 훈련 및 토큰 효율성을 모두 향상시킴을 보여줍니다.