यह शोधपत्र इनपुट-टाइम स्केलिंग प्रस्तुत करता है, जो एक नवीन स्केलिंग प्रतिमान है जो मौजूदा बड़े-पैमाने वाले भाषा मॉडल (LLM) स्केलिंग विधियों, जैसे डेटा और प्रशिक्षण स्केल स्केलिंग और अनुमान समय स्केलिंग, का पूरक है। यह विधि विभिन्न रणनीतियों के साथ इनपुट को बेहतर बनाने के लिए मेटा-ज्ञान का लाभ उठाती है, और "प्रशिक्षण-परीक्षण सह-डिज़ाइन" नामक एक परिघटना की खोज करती है, जहाँ रणनीतियों को प्रशिक्षण और परीक्षण दोनों के दौरान लागू किया जाता है। दिलचस्प बात यह है कि हम पाते हैं कि निम्न-गुणवत्ता वाले डेटासेट कभी-कभी बेहतर प्रदर्शन करते हैं, और केवल 1,000 यादृच्छिक रूप से चुने गए उदाहरणों के साथ भी सर्वोच्च प्रदर्शन प्राप्त किया जा सकता है। यह निष्कर्ष "कचरा अंदर, कचरा बाहर" की आम धारणा का खंडन करता है। अधिक उच्च-गुणवत्ता वाले डेटा के साथ प्रशिक्षण हमेशा बेहतर प्रदर्शन की ओर नहीं ले जाता है, और यह "कम ही अधिक है" परिघटना के अनुरूप है, जहाँ उच्च-आयामी अनुमान क्षमताएँ केवल 1,000 उदाहरणों के साथ भी प्राप्त की जा सकती हैं। Qwen2.5-32B-Instruct मॉडल का उपयोग करके प्राप्त प्रायोगिक परिणामों ने AIME24 और AIME25 पर अत्याधुनिक प्रदर्शन (76.7%) प्राप्त किया, और तीनों मॉडलों को बहुमत से मिलाकर AIME25 पर 80% प्रदर्शन प्राप्त किया। DeepSeek-R1-Distill-Qwen-32B मॉडल का उपयोग करके, हमने AIME24 पर 86.7% और AIME25 पर 76.7% प्रदर्शन प्राप्त किया। हम डेटासेट, डेटा पाइपलाइन, मूल्यांकन परिणामों और चेकपॉइंट्स को ओपन-सोर्स करने की योजना बना रहे हैं।