दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

एसएफआर-डीपरिसर्च: स्वायत्त रूप से तर्क करने वाले एकल एजेंटों के लिए प्रभावी सुदृढीकरण सीखने की दिशा में

Created by
  • Haebom

लेखक

जुआन-फी गुयेन, श्रेय पंडित, रेवंत गंगी रेड्डी, ऑस्टिन जू, सिल्वियो सावरेसी, कैमिंग जिओंग, शफीक जोटी

रूपरेखा

यह शोधपत्र एकल-एजेंट-आधारित स्वायत्त डीप रिसर्च (DR) मॉडल के विकास पर केंद्रित है। मौजूदा बहु-एजेंट प्रणालियों के विपरीत, यह शोधपत्र एक स्वायत्त मॉडल प्रस्तुत करता है जिसमें एक एकल एजेंट परिस्थिति के आधार पर अपनी अगली कार्रवाई गतिशील रूप से निर्धारित करता है, जिससे वेब क्रॉलिंग और पायथन टूल एकीकरण न्यूनतम हो जाता है। मौजूदा पूर्व-प्रशिक्षित या निर्देश-संचालित LLM का उपयोग करने के बजाय, हम एक अनुमान-अनुकूलित मॉडल पर निरंतर सुदृढीकरण अधिगम (RL) के माध्यम से एजेंट क्षमताओं को बढ़ाने की एक विधि प्रस्तावित करते हैं। विभिन्न ओपन-सोर्स LLM पर पूरी तरह से सिंथेटिक डेटा का उपयोग करके एक सरल RL विधि लागू करके, सर्वश्रेष्ठ प्रदर्शन करने वाले मॉडल, SFR-DR-20B ने ह्यूमैनिटीज़ लास्ट एग्जाम बेंचमार्क पर 28.7% तक का प्रदर्शन लाभ प्राप्त किया। हम प्रस्तावित कार्यप्रणाली का गहन प्रयोगात्मक विश्लेषण भी प्रस्तुत करते हैं।

Takeaways, Limitations

Takeaways:
एकल एजेंटों पर आधारित स्वायत्त गहन शिक्षण मॉडल विकसित करने के लिए एक नया दृष्टिकोण प्रस्तुत किया गया है।
निरंतर सुदृढीकरण सीखने के माध्यम से तर्क क्षमता को बनाए रखते हुए एजेंट क्षमताओं में सुधार करने के लिए एक प्रभावी विधि प्रस्तुत की गई है।
हम विभिन्न ओपन-सोर्स एलएलएम के लिए केवल सिंथेटिक डेटा का उपयोग करके एक सरल आरएल नुस्खा की प्रयोज्यता का प्रदर्शन करते हैं।
ह्यूमैनिटी के लास्ट एग्जाम बेंचमार्क पर महत्वपूर्ण प्रदर्शन लाभ प्राप्त हुआ।
Limitations:
चूंकि इसे केवल सिंथेटिक डेटा का उपयोग करके प्रशिक्षित किया गया था, इसलिए वास्तविक डेटा पर सामान्यीकरण प्रदर्शन को सत्यापित करने की आवश्यकता है।
मानवता की अंतिम परीक्षा के अलावा अन्य मानदंडों पर प्रदर्शन मूल्यांकन की आवश्यकता है।
यद्यपि वेब क्रॉलिंग और पायथन टूल्स का एकीकरण न्यूनतम कर दिया गया है, फिर भी वास्तविक दुनिया के गहन शोध वातावरण में इसकी दक्षता और मापनीयता निर्धारित करने के लिए और अधिक शोध की आवश्यकता है।
एकल-एजेंट मॉडल की जटिल अनुमान प्रक्रिया की व्याख्या का अभाव।
👍