본 논문은 대규모 언어 모델(LLM)의 추론 성능 향상을 위해 테스트 시점의 연산량을 효율적으로 사용하는 방법을 연구합니다. 기존 방법들은 검색 추적에 대한 미세 조정이나 0/1 결과 보상을 사용하는 강화 학습에 의존하지만, 이러한 접근 방식이 테스트 시점의 연산량을 효율적으로 활용하는지, 연산량이 증가함에 따라 확장성을 유지하는지에 대한 의문을 제기합니다. 본 논문에서는 테스트 시점 연산량 최적화 문제를 메타 강화 학습 문제로 공식화하여, LLM의 긴 출력 스트림을 여러 에피소드로 나누고 누적 후회를 효율성 측정 지표로 사용합니다. 강화 학습 알고리즘이 훈련 중 탐색과 활용 간의 최적의 균형을 맞추는 것과 유사하게, 누적 후회를 최소화하는 것이 토큰 스트림에서 탐색과 활용의 최적 균형을 제공합니다. 기존 최첨단 모델들이 후회를 최소화하지 않는다는 것을 보이고, 결과 0/1 보상 강화 학습과 함께 밀집 보상 보너스를 극대화함으로써 후회를 최소화할 수 있음을 보입니다. 이 보너스는 출력 스트림의 각 후속 블록이 달성한 "진행 상황"으로, 최종 성공 가능성의 변화로 정량화됩니다. 이러한 통찰력을 바탕으로, 테스트 시점 연산량을 최적화하기 위한 새로운 미세 조정 방법인 메타 강화 미세 조정(MRT)을 개발합니다. MRT는 수학 추론에서 기존 결과 보상 강화 학습에 비해 성능이 2~3배 향상되고 토큰 효율성이 약 1.5배 향상되는 결과를 보입니다.