बड़े पैमाने के भाषा मॉडल (एलएलएम) की सीमाओं को संबोधित करने के लिए, जो स्थिर आंतरिक ज्ञान के कारण मतिभ्रम या पुरानी प्रतिक्रियाएँ उत्पन्न करते हैं, यह पत्र मॉडल की पुनर्प्राप्ति और अनुमान क्षमताओं को बढ़ाने के लिए सुदृढीकरण सीखने (आरएल) पर आधारित एक पुनर्प्राप्ति संवर्धित पीढ़ी (आरएजी) विधि का प्रस्ताव करता है। मौजूदा आरएजी विधियों की सीमाओं को संबोधित करने के लिए, जिसमें प्रशिक्षण अस्थिरता, महत्वपूर्ण अनुमान समय और एकल-प्रश्न मोड के कारण सीमित कार्यक्षमता शामिल है, हम आरएजी-आर1 प्रस्तुत करते हैं, जो एक नया प्रशिक्षण ढांचा है जिसे एलएलएम को अनुमान प्रक्रिया के दौरान आंतरिक और बाह्य ज्ञान का अनुकूल रूप से उपयोग करने में सक्षम बनाने के लिए डिज़ाइन किया गया है। आरएजी-आर1 पीढ़ी और पुनर्प्राप्ति प्रक्रियाओं को एकल-प्रश्न मोड से बहु-प्रश्न समानांतर प्रसंस्करण तक विस्तारित करता है