본 논문은 대규모 언어 모델(LLM)의 어려운 문제 해결을 위해 테스트 시점의 연산 규모를 확장하는 방법이 지연 시간과 추론 비용을 높인다는 문제를 해결하기 위해, '수면 시간 연산(sleep-time compute)'이라는 새로운 방법을 제시합니다. 수면 시간 연산은 사용자가 질문할 내용을 예측하고 유용한 양을 미리 계산하여 테스트 시점의 연산 요구량을 크게 줄이는 방법입니다. Stateful GSM-Symbolic과 Stateful AIME이라는 두 가지 추론 과제를 수정하여 본 방법의 효과를 보였으며, 테스트 시점 연산량을 최대 5배까지 줄이고, 정확도를 최대 13%(Stateful GSM-Symbolic) 및 18%(Stateful AIME)까지 향상시킬 수 있음을 보였습니다. 또한, 관련 질의를 여러 개 포함하는 Multi-Query GSM-Symbolic을 도입하여, 동일한 맥락에 대한 관련 질의에 걸쳐 수면 시간 연산을 분산함으로써 질의당 평균 비용을 2.5배 감소시켰습니다. 마지막으로, 현실적인 에이전트 SWE 작업에 수면 시간 연산을 적용하는 사례 연구를 수행하여 사용자 질의의 예측 가능성이 수면 시간 연산의 효과와 높은 상관관계가 있음을 밝혔습니다.