본 논문은 기존 대규모 언어 모델(LLM)의 확장 방식인 데이터 및 학습 규모 확장, 추론 시간 확장을 보완하는 새로운 확장 패러다임인 입력 시간 확장(Input-Time Scaling)을 제시합니다. 이 방법은 메타 지식을 활용하여 다양한 전략으로 입력을 개선하며, 학습 및 테스트 과정 모두에서 전략을 적용하는 '학습-테스트 공동 설계(train-test co-design)' 현상을 발견했습니다. 흥미롭게도, 저품질 데이터셋이 더 나은 성능을 보이는 경우도 있으며, 무작위로 선택된 1,000개의 예시만으로도 최고 성능을 달성할 수 있음을 확인했습니다. 이는 '쓰레기 입력, 쓰레기 출력'이라는 일반적인 가정과 상반되는 결과입니다. 더 많은 고품질 데이터로 학습하는 것이 항상 성능 향상으로 이어지지는 않으며, 1,000개의 예시만으로도 고차원 추론 능력을 발휘할 수 있다는 'Less is More' 현상과도 일치합니다. Qwen2.5-32B-Instruct 모델을 사용한 실험 결과, AIME24 및 AIME25에서 최첨단 성능(76.7%)을 달성했으며, 세 개의 모델을 다수결로 합치면 AIME25에서 80%의 성능을 달성했습니다. DeepSeek-R1-Distill-Qwen-32B 모델을 사용했을 때는 AIME24에서 86.7%, AIME25에서 76.7%의 성능을 달성했습니다. 데이터셋, 데이터 파이프라인, 평가 결과, 체크포인트를 오픈소스로 공개할 예정입니다.