यह शोधपत्र अध्ययन करता है कि क्या पूर्व-प्रशिक्षित भाषा मॉडल, बिना किसी बाह्य डेटा के, स्वतंत्र रूप से प्रश्न और उत्तर उत्पन्न करके अपनी तर्क क्षमताएँ बढ़ा सकते हैं। इस लक्ष्य को प्राप्त करने के लिए, हम स्व-प्रश्न भाषा मॉडल (SQLM), एक असममित स्व-शिक्षण ढाँचा प्रस्तावित करते हैं। प्रस्तावक को एक विषय मिलता है और वह प्रश्न उत्पन्न करता है, जबकि हलकर्ता प्रश्नों के उत्तर देता है। प्रस्तावक और हलकर्ता दोनों को सुदृढीकरण अधिगम के माध्यम से प्रशिक्षित किया जाता है। प्रस्तावक को उचित कठिनाई स्तर की समस्या उत्पन्न करने के लिए एक पुरस्कार मिलता है, और हलकर्ता को बहुमत मतदान के माध्यम से उत्तर की शुद्धता निर्धारित करने के लिए एक पुरस्कार मिलता है। कोडिंग समस्याओं के लिए, प्रस्तावक इकाई परीक्षण उत्पन्न करता है, जिनका उपयोग सत्यापन के लिए किया जाता है। प्रयोग तीन बेंचमार्क पर किए जाते हैं: तीन-अंकीय गुणन, OMEGA बेंचमार्क से बीजगणित की समस्याएँ, और Codeforces से प्रोग्रामिंग की समस्याएँ। हम प्रदर्शित करते हैं कि भाषा मॉडल बाह्य डेटा के बिना भी प्रदर्शन में सुधार कर सकता है।