दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

ओपेरा: एक सुदृढीकरण सीखना - तर्क-उन्मुख बहु-हॉप पुनर्प्राप्ति के लिए उन्नत ऑर्केस्ट्रेटेड प्लानर-एग्जीक्यूटर आर्किटेक्चर

Created by
  • Haebom

लेखक

यू लियू, यानबिंग लियू, फैंगफैंग युआन, कांग काओ, यूबैंग सन, कुन पेंग, वेइझुओ चेन, जियानजुन ली, झियुआन मा

रूपरेखा

यह पत्र जटिल अनुमान-आधारित बहु-चरणीय खोज कार्यों के लिए मौजूदा पुनर्प्राप्ति संवर्धित निर्माण (RAG) विधियों की सीमाओं की पहचान करता है और इन सीमाओं पर विजय पाने के लिए एक नवीन अनुमान-आधारित खोज ढाँचे, OPERA का प्रस्ताव करता है। OPERA में एक लक्ष्य नियोजन मॉड्यूल (GPM) और एक तर्क-निष्पादन मॉड्यूल (REM) शामिल हैं। GPM प्रश्न को उप-लक्ष्यों में विभाजित करता है, और REM सटीक अनुमान और कुशल खोज के लिए विशेष घटकों का उपयोग करके उप-लक्ष्यों को निष्पादित करता है। हम मौजूदा विधियों की समस्याओं को उजागर करते हैं, जिनमें अकुशल अनुमान-आधारित योजना, उप-इष्टतम अनुमान-आधारित खोज और अपर्याप्त अनुमान-आधारित फ़िल्टरिंग शामिल हैं, जिनके बारे में हमारा तर्क है कि ये खोज और अनुमान के बीच कमज़ोर युग्मन के कारण हैं। OPERA को प्रशिक्षित करने के लिए, हम मल्टी-एजेंट प्रोग्रेसिव ग्रुप रिलेटिव पॉलिसी ऑप्टिमाइज़ेशन (MAPGRPO) नामक एक नवीन विधि का प्रस्ताव करते हैं। हम जटिल बहु-चरणीय बेंचमार्क प्रयोगों के माध्यम से OPERA के बेहतर प्रदर्शन को प्रदर्शित करते हैं। स्रोत कोड GitHub पर उपलब्ध है।

Takeaways, Limitations

Takeaways:
हम जटिल अनुमान-आधारित बहु-चरणीय खोज कार्यों में मौजूदा RAG पद्धति की सीमाओं को स्पष्ट रूप से प्रस्तुत करते हैं और OPERA नामक एक नई वास्तुकला का प्रस्ताव करते हैं जो इन सीमाओं पर विजय प्राप्त कर सकती है।
ओपेरा एक लक्ष्य नियोजन मॉड्यूल और एक अनुमान-निष्पादन मॉड्यूल के माध्यम से कुशल बहु-चरण अनुमान और खोज को सक्षम बनाता है।
हम एक नई शिक्षण पद्धति, MAPGRPO का प्रस्ताव करते हैं, तथा प्रयोगात्मक रूप से इसकी प्रभावशीलता को सत्यापित करते हैं।
पुनरुत्पादन क्षमता सुनिश्चित करें और ओपन सोर्स कोड के माध्यम से आगे के अनुसंधान को बढ़ावा दें।
Limitations:
प्रस्तावित विधि के सामान्यीकरण प्रदर्शन का आगे सत्यापन आवश्यक है।
जटिल प्रश्नों की एक विस्तृत श्रृंखला पर ओपेरा के प्रदर्शन का अधिक व्यापक मूल्यांकन आवश्यक है।
एमएपीजीआरपीओ की कम्प्यूटेशनल लागत और दक्षता पर विश्लेषण का अभाव है।
यह सत्यापित करना आवश्यक है कि क्या किसी विशिष्ट बेंचमार्क के लिए प्रदर्शन सुधार को अन्य बेंचमार्क पर सामान्यीकृत किया जा सकता है।
👍