본 논문은 대규모 언어 모델(LLM)의 스케일링이 점감 수익과 에너지 소비 증가에 직면하는 문제를 해결하기 위해, 추론 시 추가적인 컴퓨팅 자원을 할당하는 테스트 시간 컴퓨팅(TTC)을 제시합니다. 기존 모델 크기 증가 방식과 비교하여 TTC가 정확성-에너지 효율 측면에서 우수한 성능을 보임을 실험적으로 증명합니다. 특히, 단순한 사실 회상보다는 복잡한 추론을 요구하는 작업에서 그 효과가 두드러집니다. 또한, TTC 성능과 출력 시퀀스 길이 간의 상호 작용을 밝히고, 쿼리 복잡도에 따라 추론 시 컴퓨팅 자원을 전략적으로 조정하면 효율성을 크게 높일 수 있음을 보여줍니다. 추가적인 사전 훈련 비용 없이 지속 가능하고 정확하며 적응력 있는 LLM 배포를 가능하게 하는 유망한 방향으로 TTC를 제시합니다.