본 논문은 기존 대규모 언어 모델(LLM)의 데이터 및 훈련 확장, 추론 시간 확장 방식을 보완하는 새로운 확장 패러다임인 입력 시간 확장(Input-Time Scaling)을 제시합니다. 훈련 및 테스트 과정에서 LLM의 메타 지식을 활용하여 다양한 전략으로 입력을 개선하는 방법을 연구합니다. 특히, 훈련과 테스트 과정에서 질의 전략을 통합적으로 적용해야 최고 성능을 달성하는 '훈련-테스트 공동 설계(train-test co-design)' 현상을 발견하였습니다. 흥미롭게도, 데이터 품질이 낮은 것으로 여겨지는 데이터셋이 더 나은 성능을 보이는 경우도 있으며, 무작위로 선택한 1,000개의 예제만으로도 최고 성능을 달성할 수 있음을 확인했습니다. 이는 '쓰레기가 들어가면 쓰레기가 나온다(garbage in, garbage out)'는 일반적인 가정과 상반되는 결과입니다. 더 많은 데이터로 훈련한다고 해서 항상 성능이 향상되는 것은 아니며, 데이터 크기 확장에 대한 기존의 직관을 재검토해야 함을 시사합니다. Qwen2.5-32B-Instruct 모델을 사용한 실험에서 AIME24 및 AIME25에서 최첨단 성능(76.7% pass@1)을 달성했으며, 세 개의 모델 다수결 투표를 통해 AIME25에서 80%의 성능을 달성했습니다. DeepSeek-R1-Distill-Qwen-32B를 기반으로 AIME24 90.0%, AIME25 80.0%의 성능을 달성했습니다. 재현성을 높이고 추가 연구를 지원하기 위해 데이터셋, 데이터 파이프라인, 평가 결과 및 체크포인트를 오픈소스로 공개할 예정입니다.