यह शोधपत्र सुदृढीकरण अधिगम के माध्यम से बड़े पैमाने के भाषा मॉडलों (एलएलएम) की जटिल समस्या-समाधान क्षमता में सुधार के लिए एक नवीन विधि प्रस्तुत करता है। पारंपरिक सुदृढीकरण अधिगम के लिए सत्यापन योग्य पुरस्कार संकेतों की आवश्यकता होती है, जो अक्सर सभी क्षेत्रों में महंगे और अव्यावहारिक होते हैं। यह अध्ययन दर्शाता है कि एलएलएम संदर्भ समाधान के बिना आत्म-निर्णय और सुधार के लिए निर्माण और सत्यापन के बीच विषमता का उपयोग कर सकते हैं। उलटी गिनती पहेलियों और एकीकरण समस्याओं का उपयोग करके आत्म-निर्णय को लागू करके, हम पारंपरिक सत्यापन विधियों के बराबर प्रदर्शन प्राप्त करते हैं। विशेष रूप से, आत्म-पुरस्कार के साथ प्रशिक्षित क्वेन 2.5 7बी डीपसीक डिस्टिल्ड मॉडल ने एमआईटी इंटीग्रेशन बी प्रतियोगिता में प्राप्त प्रदर्शन के बराबर प्रदर्शन प्राप्त किया। सिंथेटिक समस्या निर्माण के साथ, हम एक पूर्ण आत्म-सुधार चक्र स्थापित करते हैं जहाँ मॉडल स्वयं समस्याएँ उत्पन्न करता है, हल करता है और उनका मूल्यांकन करता है। यह दर्शाता है कि सुदृढीकरण अधिगम को कई क्षेत्रों में लागू किया जा सकता है जो पहले पुरस्कार डिज़ाइन की कठिनाई से सीमित थे। यह स्वायत्त एआई प्रणालियों की ओर एक महत्वपूर्ण कदम है जो मानवीय हस्तक्षेप के बिना स्व-निर्देशित अधिगम के माध्यम से निरंतर सुधार करते हैं।