본 논문은 최근 주목받고 있는 테스트 시간 스케일링(TTS, Test-Time Scaling)에 대한 종합적인 검토를 제공한다. TTS는 사전 훈련 시대의 계산 스케일링(데이터 및 매개변수)에 대한 열기가 감소함에 따라 대두된 연구 분야로, 대규모 언어 모델(LLM)의 문제 해결 능력을 향상시켜 수학, 코딩과 같은 특수 추론 작업뿐만 아니라 개방형 질문 응답과 같은 일반적인 작업에서도 상당한 발전을 가져왔다. 본 논문은 TTS 연구의 핵심적인 네 가지 차원(무엇을 스케일링할 것인가, 어떻게 스케일링할 것인가, 어디서 스케일링할 것인가, 얼마나 잘 스케일링할 것인가)을 기반으로 한 통합적이고 다차원적인 프레임워크를 제시하고, 방법론, 적용 사례, 평가 측면에 대한 광범위한 검토를 수행한다. 또한, 기존 TTS의 주요 발전 경로를 제시하고 실제 배포를 위한 실용적인 지침을 제공하며, 향후 연구 방향(더 많은 스케일링, 기술의 기능적 본질 명확화, 더 많은 작업으로의 일반화, 더 많은 귀속)에 대한 통찰력을 제공한다.