दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

विचार-विलय आसवन

ओटीईएसजीएन: पहलू-आधारित भावना विश्लेषण के लिए इष्टतम परिवहन-संवर्धित वाक्यात्मक-अर्थपूर्ण ग्राफ नेटवर्क

MESH -- मनुष्यों की तरह वीडियो को समझना: बड़े वीडियो मॉडल में मतिभ्रम को मापना

उच्च-ऊर्जा भौतिकी में न्यूट्रिनो घटना वर्गीकरण के लिए दृष्टि-भाषा मॉडल का अनुकूलन

समरूपता-निर्देशित बहु-एजेंट व्युत्क्रम सुदृढीकरण अधिगम

एयू-हार्नेस: ऑडियो एलएलएम के समग्र मूल्यांकन के लिए एक ओपन-सोर्स टूलकिट

चिकित्सा छवि निदान के लिए विशेषज्ञ-निर्देशित व्याख्यात्मक फ़्यू-शॉट शिक्षण

सामान्यीकृत रूटिंग की ओर: अनुकूली और कुशल अनुमान के लिए मॉडल और एजेंट ऑर्केस्ट्रेशन

मशीन लर्निंगएलएम: निरंतर पूर्व-प्रशिक्षण के माध्यम से कई-शॉट इन-कॉन्टेक्स्ट लर्निंग का स्केलिंग

डेमो: आणविक ट्यूमर बोर्डों में रोगी सारांशीकरण के लिए हेल्थकेयर एजेंट ऑर्केस्ट्रेटर (HAO)

विपरीत ध्यान द्वारा ध्यान केंद्रित करना: वीएलएम की दृश्य तर्क क्षमता को बढ़ाना

सेवा-पूर्व क्षितिज से परे: बेहतर वित्तीय जोखिम पूर्वानुमान के लिए सेवाकालीन व्यवहार को बढ़ावा देना

समयबद्ध नियमित अभिव्यक्तियों के संश्लेषण पर

टाइनीडेफ-डीईटीआर: यूएवी इमेजरी से ट्रांसमिशन लाइनों में दोष का पता लगाने के लिए डीईटीआर-आधारित फ्रेमवर्क

LiDAR-BIND-T: रोबोटिक अनुप्रयोगों के लिए बेहतर और अस्थायी रूप से सुसंगत सेंसर मोडैलिटी ट्रांसलेशन और फ्यूजन

विज़न से सत्यापन तक: जीसीसी-विशिष्ट एआई अपनाने के सूचकांक का एक सिद्धांत- और डेटा-संचालित निर्माण

विभेदक गोपनीयता के लिए एक व्यापक मार्गदर्शिका: सिद्धांत से उपयोगकर्ता अपेक्षाओं तक

एआई परिवर्तन की वास्तुकला: चार रणनीतिक पैटर्न और एक उभरता हुआ क्षेत्र

एफएलएम-ऑडियो: नेचुरल मोनोलॉग्स, दोहरे प्रशिक्षण के माध्यम से नेटिव फुल-डुप्लेक्स चैटबॉट्स को बेहतर बनाता है

ध्यान-संवर्धित ConvNeXt का उपयोग करके गहन शिक्षण-आधारित रॉक कणिकीय वर्गीकरण

जनरेटिव डिफ्यूजन की सूचना गतिशीलता

कंप्यूटर मॉडल की सिस्टम पहचान के लिए डेटा-संवर्धित फ्यू-शॉट न्यूरल स्टेंसिल इम्यूलेशन

विषम सुदृढीकरण सीखने के लिए समूह अपेक्षा नीति अनुकूलन

ऑडियो फ़िंगरप्रिंटिंग और पुनर्प्राप्ति के लिए पूर्व-प्रशिक्षित कन्फ़ॉर्मर्स

हस्तलिखित गणितीय अभिव्यक्ति पहचान के लिए स्केलेबल प्रशिक्षण की ओर

सीएसएमए को अनुकूलित करने के लिए ट्रांसफॉर्मर-आधारित इन-कॉन्टेक्स्ट लर्निंग को सैद्धांतिक रूप से समझना

क्लियर-कोडटेस्ट: कोड सुदृढीकरण सीखने के लिए स्केलेबल टेस्ट केस जनरेशन

HiD-VAE: पदानुक्रमित और विसंयोजित अर्थ आईडी के माध्यम से व्याख्या योग्य जनरेटिव अनुशंसा

मैजिकजीयूआई: स्केलेबल डेटा पाइपलाइन और सुदृढ़ीकरण फाइन-ट्यूनिंग के साथ एक आधारभूत मोबाइल जीयूआई एजेंट

विला-X: दृष्टि-भाषा-क्रिया मॉडल में अव्यक्त क्रिया मॉडलिंग को बढ़ाना

कक्षा में नया बच्चा: एआई कोडिंग सहायकों के बारे में छात्रों की धारणाओं का अन्वेषण

क्या बड़े भाषा मॉडल पेटेंट नियमों को समझने के साथ-साथ उन्हें लागू करके व्यावहारिक पेटेंट अटॉर्नी परीक्षा पास कर सकते हैं?

3D अल्ट्रासाउंड में संयुक्त तल स्थानीयकरण और विसंगति निदान के लिए अनिश्चितता-जागरूक प्रसार और सुदृढीकरण सीखना

मानव धारणा बनाम तंत्रिका मॉडल द्वारा अनिश्चितता का अनुमान

पाठक की जिज्ञासा की भविष्यवाणी के लिए विषय नेटवर्क की सतत समरूपता

कार्य महत्वपूर्ण: ज्ञान की आवश्यकताएं संदर्भ-स्मृति संघर्ष के प्रति एलएलएम प्रतिक्रियाओं को आकार देती हैं

डिस्क्रीट पार्टिकल सिस्टम डेटा जेनरेशन का उपयोग करके ऑपरेटर लर्निंग के साथ क्रैक पथ भविष्यवाणी

घ्राण संवेदकों और डेटासेट में मजबूती के लिए प्रसार ग्राफ तंत्रिका नेटवर्क

एमएम-प्रॉम्प्ट: निरंतर दृश्य प्रश्नोत्तर के लिए क्रॉस-मोडल प्रॉम्प्ट ट्यूनिंग

कानूनी मानदंडों के लिए एक ऑन्टोलॉजी-संचालित ग्राफ आरएजी: एक संरचनात्मक, लौकिक और नियतात्मक दृष्टिकोण

लाइव ऑप्टिकल हस्ताक्षरों के साथ भाषण वीडियो के मिथ्याकरण का मुकाबला (विस्तारित संस्करण)

वीडियो सारांशीकरण के लिए वीएलएम में प्रारंभिक निकास और बहु-चरणीय ज्ञान आसवन

सिंथेटिक सारणीबद्ध डेटा के मूल्यांकन में महत्वपूर्ण चुनौतियाँ और दिशानिर्देश: एक व्यवस्थित समीक्षा

परजीवी: प्रसार मॉडल के लिए एक स्टेग्नोग्राफ़ी-आधारित बैकडोर अटैक फ्रेमवर्क

उन्नत पुनर्प्राप्ति-संवर्धित पीढ़ी के लिए अनुकूली स्मृति-आधारित अनुकूलन की ओर

कुशल परीक्षण-समय तर्क के लिए एन्ट्रॉपी-गेटेड ब्रांचिंग

SWI: बड़े भाषा मॉडल में इरादे के साथ बोलना

जनरेटिव एडवर्सेरियल नेटवर्क का उपयोग करके बीजान्टिन-मजबूत संघीय शिक्षा

वेरीसेफ एजेंट: तर्क-आधारित क्रिया सत्यापन के माध्यम से मोबाइल GUI एजेंट की सुरक्षा

मन: बहु-एजेंट आंतरिक संवाद के साथ गहन मनोवैज्ञानिक उपचार की ओर

वी-हॉप: विसुओ-हैप्टिक 6डी ऑब्जेक्ट पोज़ ट्रैकिंग

अहं-केंद्रित दुनिया में एक संयुक्त पूर्वानुमानित एजेंट मॉडल

लेबल-मुक्त एकल-कोशिका आरएनए-सीक्वेंस डेटा के लिए ज्ञान-निर्देशित बायोमार्कर पहचान: एक सुदृढ़ीकरण अधिगम परिप्रेक्ष्य

MERaLiON-SpeechEncoder: सिंगापुर और उसके बाहर के लिए एक भाषण आधार मॉडल की ओर

RED: पुरस्कार पुनर्वितरण के माध्यम से समग्र प्रतिक्रिया से टोकन-स्तरीय पुरस्कार प्राप्त करना

IDEATOR: स्वयं का उपयोग करके बड़े विज़न-लैंग्वेज मॉडलों को जेलब्रेक करना और बेंचमार्क करना

डीपवोटिंग: कैनोनिकल एम्बेडिंग के साथ वोटिंग नियमों को सीखना और उन्हें बेहतर बनाना

विविधता के आश्रित कारकों के अंतर्गत वियोजन पर पुनर्विचार

समानांतर प्रतीकात्मक गणना के साथ भौतिक नियमों की खोज

भाषा का उपयोग करके छवियों में अर्थपूर्ण वृद्धि

बड़े भाषा मॉडल द्वारा एल्गोरिथम मिलीभगत

न्यूनतम गठबंधन तर्क

इन्वेंटरी नेटवर्क के लिए गहन सुदृढीकरण सीखना: विश्वसनीय नीति अनुकूलन की ओर

सार्वभौमिक प्रतिबंधों के साथ प्राथमिकता वाले डेटाबेस में असंगतता प्रबंधन: सक्रिय अखंडता प्रतिबंधों के साथ जटिलता विश्लेषण और लिंक

संपूर्ण प्रसार पथ को सूक्ष्म मानवीय वरीयता के साथ सीधे संरेखित करना

कॉगगाइड: जीरो-शॉट ओमनी-मोडल रीजनिंग के लिए मानव-सदृश मार्गदर्शन

TreeGPT: ध्यान तंत्र के बिना संरचित तर्क के लिए शुद्ध TreeFFN एनकोडर-डिकोडर आर्किटेक्चर

रोबिक्स: रोबोट इंटरैक्शन, तर्क और योजना के लिए एक एकीकृत मॉडल

KROMA: ज्ञान पुनर्प्राप्ति और बड़े भाषा मॉडल के साथ ऑन्टोलॉजी मिलान

एलएलएम योजना का स्केलिंग: पैरामीट्रिक समस्या निर्माण और कठोर मूल्यांकन के लिए एनएल2फ्लो

बड़े तर्क मॉडल में लंबाई संपीड़न का अनुकूलन

संवेदी-मोटर नियंत्रण के लिए एलएलएम: संदर्भगत और पुनरावृत्तीय अधिगम का संयोजन

प्रयास-सचेत निष्पक्षता: एल्गोरिदमिक निष्पक्षता मेट्रिक्स में प्रयास की एक दर्शन-सूचित, मानव-केंद्रित धारणा को शामिल करना

इच्छा-संचालित स्वायत्तता के साथ मानव-जैसी दैनिक गतिविधियों का अनुकरण

मॉड्यूलर प्रॉम्प्ट संरचना के माध्यम से अनुकूलित मल्टी-टास्क प्रॉम्प्ट ट्यूनिंग के साथ फ्यू-शॉट ट्रांसफर लर्निंग को बढ़ाना

बटरफ्लाईक्वांट: सीखने योग्य ऑर्थोगोनल बटरफ्लाई ट्रांसफॉर्म्स के माध्यम से अल्ट्रा-लो-बिट एलएलएम क्वांटाइजेशन

सीडीई: बड़े भाषा मॉडलों में कुशल सुदृढीकरण सीखने के लिए जिज्ञासा-संचालित अन्वेषण

SimpleVLA-RL: सुदृढीकरण सीखने के माध्यम से VLA प्रशिक्षण का विस्तार

मेडिकेड देखभाल प्रबंधन के लिए व्यवहार्यता-निर्देशित निष्पक्ष अनुकूली ऑफ़लाइन सुदृढीकरण शिक्षा

रेडियो विनियमों की विश्वसनीय व्याख्या के लिए पुनर्प्राप्ति-संवर्धित पीढ़ी

समूह प्रतितथ्यात्मकता के विकास के माध्यम से अवधारणा बहाव की व्याख्या

LoCoBench: जटिल सॉफ्टवेयर इंजीनियरिंग में दीर्घ-संदर्भ वृहद भाषा मॉडल के लिए एक बेंचमार्क

स्थानिक-कालिक मस्तिष्क ट्यूमर वृद्धि की भविष्यवाणी करने के लिए निर्देशित प्रसार मॉडल के साथ यांत्रिक शिक्षण

दोहरे-पास स्पेक्ट्रल एन्कोडिंग और लेटेंट स्पेस संचार के माध्यम से ग्राफ संरेखण

ऑब्जेक्ट रिएक्ट: विज़ुअल नेविगेशन के लिए ऑब्जेक्ट-रिलेटिव कंट्रोल सीखना

धाराप्रवाह लेकिन भावशून्य: भाषा मॉडल के भावनात्मक अंधे धब्बे

अदृश्य विशेषताएँ, दृश्यमान पूर्वाग्रह: एमआरआई-आधारित अल्ज़ाइमर रोग वर्गीकरण में जनसांख्यिकीय शॉर्टकट की खोज

वैश्विक अनुकूलन समस्याओं के लिए बहु-सहप्रसरण शिक्षण ऑपरेटरों के साथ एक उन्नत शैक्षिक प्रतिस्पर्धा अनुकूलक

स्व-पर्यवेक्षित विज़न एनकोडर से बहु-विशेषता संलयन और संरेखण द्वारा वीडियो प्रसार ट्रांसफार्मर प्रशिक्षण में सुधार

संख्यात्मक अनुकूलन के लिए सहप्रसरण अधिगम और विविधता संवर्द्धन के साथ एक संशोधित RIME एल्गोरिथम

व्याख्या योग्य नौकरी शीर्षक मिलान की ओर: अर्थपूर्ण पाठ्य संबद्धता और ज्ञान ग्राफ़ का लाभ उठाना

त्वरित सूक्ष्म संरचना इमेजिंग के लिए व्याख्यात्मक AI: कनेक्टोम 2.0 स्कैनर पर एक SHAP-निर्देशित प्रोटोकॉल

दूरसंचार कानून और नीति में एआई घटना रिपोर्टिंग को शामिल करना: भारत से अंतर्दृष्टि

ओपनफ़ेक: बड़े पैमाने पर डीपफ़ेक का पता लगाने के लिए एक खुला डेटासेट और प्लेटफ़ॉर्म

प्रॉम्प्ट पाइरेट्स को एक मानचित्र की आवश्यकता है: बीज चुराने से प्रॉम्प्ट चुराने में मदद मिलती है

उप-सहारा एमआरआई पर संसाधन-कुशल ग्लियोमा विभाजन

ENSI: बड़े भाषा मॉडल के लिए कुशल गैर-इंटरैक्टिव सुरक्षित अनुमान

हम अभी भी यह (पूरी तरह) गलत कर रहे हैं: पंद्रह साल बाद भी अनुशंसा प्रणालियाँ

एलएलएम को अपनी निर्णय सीमाएँ नहीं पता: स्व-निर्मित प्रतितथ्यात्मक स्पष्टीकरणों की अविश्वसनीयता

मेटाएलएलमिक्स: हाइपर-पैरामीटर अनुकूलन के लिए एक एक्सएआई सहायता प्राप्त एलएलएम-मेटा-लर्निंग आधारित दृष्टिकोण

समरूपता-निर्देशित बहु-एजेंट व्युत्क्रम सुदृढीकरण अधिगम

Created by

Haebom

लेखक

योंगकाई तियान, यिरोंग क्यूई, ज़िन यू, वेनजुन वू, जी लुओ

रूपरेखा

यह शोधपत्र इस समस्या का समाधान करता है कि रोबोटिक प्रणालियों में सुदृढीकरण अधिगम का निष्पादन पूर्वनिर्धारित पुरस्कार फलनों की तर्कसंगतता पर निर्भर करता है, लेकिन मैन्युअल रूप से डिज़ाइन किए गए पुरस्कार फलन अशुद्धियों के कारण नीति विफलता का कारण बन सकते हैं। व्युत्क्रम सुदृढीकरण अधिगम (IRL) विशेषज्ञ प्रदर्शनों से अंतर्निहित पुरस्कार फलनों का अनुमान लगाकर इस समस्या का समाधान करता है, लेकिन मौजूदा विधियाँ सटीक पुरस्कार फलनों को प्राप्त करने के लिए बड़ी संख्या में विशेषज्ञ प्रदर्शनों पर अत्यधिक निर्भर करती हैं। विशेषज्ञ प्रदर्शनों को एकत्रित करने की उच्च लागत, विशेष रूप से बहु-रोबोट प्रणालियों में, IRL के व्यावहारिक उपयोग में गंभीर रूप से बाधा डालती है। इसलिए, बहु-एजेंट व्युत्क्रम सुदृढीकरण अधिगम (MIRL) में नमूनाकरण दक्षता में सुधार एक महत्वपूर्ण चुनौती के रूप में उभरा है। यह शोधपत्र सैद्धांतिक रूप से प्रदर्शित करता है कि बहु-एजेंट प्रणालियों में अंतर्निहित समरूपता का लाभ उठाकर अधिक सटीक पुरस्कार फलनों को प्राप्त किया जा सकता है। इस अंतर्दृष्टि के आधार पर, हम एक सामान्य ढाँचा प्रस्तावित करते हैं जो मौजूदा बहु-एजेंट प्रतिकूल IRL एल्गोरिदम में समरूपता को शामिल करता है, जिससे नमूनाकरण दक्षता में उल्लेखनीय सुधार होता है। विभिन्न चुनौतीपूर्ण कार्यों पर प्रायोगिक परिणाम इस ढाँचे की प्रभावशीलता को प्रदर्शित करते हैं, और वास्तविक दुनिया की बहु-रोबोट प्रणालियों पर आगे सत्यापन हमारी पद्धति की व्यावहारिकता को प्रदर्शित करता है।

Takeaways, Limitations

•

Takeaways:

◦

हम एक नवीन ढांचा प्रस्तुत करते हैं जो बहु-एजेंट प्रणालियों की समरूपता का उपयोग करके MIRL की नमूनाकरण दक्षता में महत्वपूर्ण सुधार करता है।

◦

प्रस्तावित ढांचे की प्रभावशीलता को विभिन्न जटिल कार्यों के माध्यम से प्रयोगात्मक रूप से सत्यापित किया जाता है।

◦

वास्तविक बहु-रोबोट प्रणालियों में व्यावहारिकता का सत्यापन।

•

Limitations:

◦

संभावना यह है कि प्रस्तावित ढांचे का प्रदर्शन एक विशिष्ट प्रकार की समरूपता पर निर्भर करता है।

◦

विभिन्न बहु-एजेंट प्रणालियों की सामान्यीकरणता पर आगे अनुसंधान की आवश्यकता है।

◦

वास्तविक दुनिया के वातावरण में शोर और अनिश्चितता के प्रति मजबूती पर और अधिक शोध की आवश्यकता है।

पीडीएफ देखें

Made with Slashpage