दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

RAG-R1: बहु-प्रश्न समानांतरवाद के माध्यम से LLMs की खोज और तर्क क्षमताओं को प्रोत्साहित करना

Created by
  • Haebom

लेखक

ज़ीवेन टैन, जियामिंग हुआंग, क्विंटोंग वू, होंगक्सुआन झांग, चेनयी ज़ुआंग, जिंजी गु

रूपरेखा

बड़े पैमाने के भाषा मॉडल (एलएलएम) की सीमाओं को संबोधित करने के लिए, जो स्थिर आंतरिक ज्ञान के कारण मतिभ्रम या पुरानी प्रतिक्रियाएँ उत्पन्न करते हैं, यह पत्र मॉडल की पुनर्प्राप्ति और अनुमान क्षमताओं को बढ़ाने के लिए सुदृढीकरण सीखने (आरएल) पर आधारित एक पुनर्प्राप्ति संवर्धित पीढ़ी (आरएजी) विधि का प्रस्ताव करता है। मौजूदा आरएजी विधियों की सीमाओं को संबोधित करने के लिए, जिसमें प्रशिक्षण अस्थिरता, महत्वपूर्ण अनुमान समय और एकल-प्रश्न मोड के कारण सीमित कार्यक्षमता शामिल है, हम आरएजी-आर1 प्रस्तुत करते हैं, जो एक नया प्रशिक्षण ढांचा है जिसे एलएलएम को अनुमान प्रक्रिया के दौरान आंतरिक और बाह्य ज्ञान का अनुकूल रूप से उपयोग करने में सक्षम बनाने के लिए डिज़ाइन किया गया है। आरएजी-आर1 पीढ़ी और पुनर्प्राप्ति प्रक्रियाओं को एकल-प्रश्न मोड से बहु-प्रश्न समानांतर प्रसंस्करण तक विस्तारित करता है

Takeaways, Limitations

Takeaways:
आरएजी-आधारित एलएलएम के अनुमान समय को कम करने के लिए एक प्रभावी विधि प्रस्तुत की गई है।
हम प्रदर्शित करते हैं कि बहु-क्वेरी समानांतर प्रसंस्करण का उपयोग करके एलएलएम के प्रदर्शन में सुधार किया जा सकता है।
एक नवीन प्रशिक्षण ढांचे, RAG-R1 की प्रभावशीलता का सत्यापन, जो आंतरिक और बाह्य ज्ञान का अनुकूली रूप से लाभ उठाता है।
मौजूदा RAG विधि की Limitations पर काबू पाना और प्रदर्शन में सुधार प्राप्त करना।
Limitations:
प्रस्तावित विधि का प्रदर्शन सुधार विशिष्ट प्रश्न-उत्तर मानदंडों तक सीमित हो सकता है।
विभिन्न प्रकार के एलएलएम और आरएजी तरीकों की सामान्यता निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।
बहु-क्वेरी समानांतर प्रसंस्करण की दक्षता हार्डवेयर संसाधनों पर निर्भर हो सकती है।
RAG-R1 के प्रशिक्षण स्थिरता और सामान्यीकरण प्रदर्शन का आगे विश्लेषण आवश्यक है।
👍