पिछले शोध के आधार पर, जिसमें यह दर्शाया गया था कि केवल सुदृढीकरण अधिगम (RL) तर्क क्षमता वाले बड़े पैमाने के भाषा मॉडल (LLM) नहीं बना सकता, यह शोधपत्र ThinkTuning का प्रस्ताव करता है, जो तर्क क्षमता से रहित मॉडलों के प्रशिक्षण के लिए एक नवीन विधि है। ThinkTuning एक GRPO-आधारित इंटरैक्टिव शिक्षण दृष्टिकोण है जो शिक्षक मॉडल द्वारा निर्देशित छात्र मॉडल के कार्यान्वयन को बढ़ाता है। शिक्षक मॉडल समस्याएँ प्रस्तुत करता है और छात्र मॉडल के उत्तरों पर सुधारात्मक प्रतिक्रिया प्रदान करता है, जिससे छात्र मॉडल की तर्क क्षमता में सुधार होता है। प्रायोगिक परिणाम दर्शाते हैं कि ThinkTuning विभिन्न बेंचमार्क पर शून्य-शॉट आधार रेखा की तुलना में औसतन 3.85%, और MATH-500, AIME, और GPQA-Diamond पर क्रमशः 2.08%, 2.23%, और 3.99% प्रदर्शन में सुधार करता है। स्रोत कोड GitHub पर उपलब्ध है।