본 논문은 대규모 언어 모델의 성능 향상을 위해 테스트 시간 컴퓨팅을 확장하는 기존 방법들이 모든 질의에 컴퓨팅 자원을 균일하게 할당하여 질의 난이도의 차이를 고려하지 못하는 비효율성을 지적합니다. 이를 해결하기 위해, 테스트 시간 컴퓨팅 할당을 새로운 밴딧 학습 문제로 공식화하고, 질의 난이도를 실시간으로 추정하여 컴퓨팅 자원을 동적으로 할당하는 적응형 알고리즘을 제안합니다. 제안된 알고리즘은 쉬운 질의의 정확도를 유지하면서 어려운 질의에 더 많은 컴퓨팅 자원을 할당하고, 어려운 질의 중에서도 해결 가능한 질의를 우선적으로 처리하여 해결 불가능한 질의에 대한 과도한 컴퓨팅을 줄입니다. 이론적으로 제안된 알고리즘이 균일한 할당보다 더 나은 컴퓨팅 효율을 달성함을 증명하고, 수학 및 코드 벤치마크에서 실험적으로 효과를 검증합니다. MATH-500 데이터셋에서는 최대 11.10% (상대적으로 15.04%), LiveCodeBench에서는 최대 7.41% (상대적으로 14.40%)의 성능 향상을 달성합니다.