बड़े पैमाने के भाषा मॉडल (LLM) की सीमाओं को दूर करने के लिए, जो स्थिर आंतरिक ज्ञान के कारण भ्रमकारी या कालभ्रमित प्रतिक्रियाएँ उत्पन्न करते हैं, यह शोधपत्र एक बेहतर सुदृढीकरण अधिगम (RL)-आधारित पुनर्प्राप्ति-संवर्धित निर्माण (RAG) ढाँचा प्रस्तावित करता है, जिसे RAG-R1 कहा जाता है। RAG-R1 को अनुमान प्रक्रिया के दौरान आंतरिक और बाह्य ज्ञान का अनुकूली उपयोग करने के लिए डिज़ाइन किया गया है, और यह निर्माण और पुनर्प्राप्ति प्रक्रियाओं को एकल-प्रश्न मोड से बहु-प्रश्न समानांतर प्रसंस्करण तक विस्तारित करता है ताकि अनुमान समय कम हो और मॉडल का प्रदर्शन बेहतर हो। सात प्रश्न-उत्तर मानकों पर प्रायोगिक परिणाम दर्शाते हैं कि प्रस्तावित विधि अत्याधुनिक आधारभूत मॉडलों की तुलना में 13.2% तक बेहतर प्रदर्शन करती है और अनुमान समय को 11.1% तक कम करती है।