본 논문은 대규모 언어 모델(LLM)의 복잡한 추론 능력 향상을 위해 테스트 시간 강화 학습(TTRL)을 활용하는 방법을 제시합니다. 기존 TTRL의 높은 추론 비용과 과신 문제를 해결하기 위해, 엔트로피 기반 메커니즘을 도입하여 탐험-활용 균형을 개선하는 두 가지 전략, 즉 엔트로피 분기 트리 다수결 롤아웃(ETMR)과 엔트로피 기반 이점 재구성(EAR)을 제안합니다. Llama3.1-8B 모델에 적용한 결과, AIME 2024 벤치마크에서 Pass at 1 지표를 68% 향상시키면서 롤아웃 토큰 예산은 60%만 사용하는 효율성을 보였습니다. 이는 추론 효율성, 다양성, 추정 강건성 간의 균형을 효과적으로 최적화하는 방법임을 보여줍니다.