दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

क्रॉस-डोमेन ईईजी विश्लेषण अनुप्रयोग के लिए आधारभूत मॉडल: एक सर्वेक्षण

हाइड्रा: विरल ध्यान, विशेषज्ञों का मिश्रण और स्मृति वाला एक 1.6B-पैरामीटर स्टेट-स्पेस भाषा मॉडल

आरएल के लिए आपका रिवॉर्ड फ़ंक्शन, खोज के लिए आपका सर्वश्रेष्ठ पीआरएम है: आरएल और खोज-आधारित टीटीएस को एकीकृत करना

पेंगुइन: दीर्घकालिक समय श्रृंखला पूर्वानुमान के लिए आवधिक-नेस्टेड समूह ध्यान के साथ ट्रांसफार्मर को बढ़ाना

ग्राफ्ट: गतिशील डेटा नमूनाकरण के लिए ग्रेडिएंट-अवेयर फास्ट मैक्सवॉल तकनीक

FLAIR: आवृत्ति और स्थानीयता-जागरूक अंतर्निहित तंत्रिका अभ्यावेदन

आउटलायर डिटेक्शन के लिए यादृच्छिक पीसीए फ़ॉरेस्ट

निरंतर सीखने के लिए बहु-स्तरीय ज्ञान आसवन और गतिशील स्व-पर्यवेक्षित शिक्षण

एमसीपी-गार्ड: बड़े भाषा मॉडल अनुप्रयोगों में मॉडल संदर्भ प्रोटोकॉल अखंडता के लिए एक रक्षा ढांचा

अंतर्निहित लेबल शोर के विरुद्ध लेबल-केवल लोचदार विरूपण के माध्यम से मजबूत अर्थपूर्ण विभाजन प्रदर्शन को अनलॉक करना

हस्तलिखित गणितीय अभिव्यक्ति पहचान के लिए स्केलेबल प्रशिक्षण की ओर

सक्रिय रेडियो मानचित्र निर्माण के लिए बायेसियन-संचालित ग्राफ तर्क

एएसआर प्रदर्शन में गिरावट में ऑडियो चैनलों की भूमिका का खुलासा

समृद्ध आकृति विज्ञान के लिए टोकनीकरण पर पुनर्विचार: बीपीई और आकृति विज्ञान संरेखण पर यूनिग्राम का प्रभुत्व

रेडडिनो: लाल रक्त कोशिका विश्लेषण के लिए एक आधारभूत मॉडल

रीज़नरैंक: मज़बूत तर्क क्षमता के साथ पैसेज रैंकिंग को सशक्त बनाना

दुष्ट जुड़वाँ कौन है? अवांछित व्यवहार के लिए विभेदक लेखा परीक्षा

समता-जागरूक बाइट-पेयर एन्कोडिंग: टोकनीकरण में क्रॉस-भाषाई निष्पक्षता में सुधार

दृष्टि-भाषा मॉडल के परीक्षण-समय सामान्यीकरण के लिए मल्टी-कैश संवर्धित प्रोटोटाइप लर्निंग

क्या एलएलएम-संचालित सोशल मीडिया बॉट्स यथार्थवादी हैं?

कुशल और संदर्भ-जागरूक KGQA के लिए LLM-निर्देशित MCTS के माध्यम से गतिशील रूप से अनुकूली तर्क

शोर लेबल डोमेन अनुकूलन सीखने के लिए नेस्टेड ग्राफ छद्म-लेबल परिशोधन

एक टूलबॉक्स, हथौड़ा नहीं - मल्टी-टैग: मल्टी-टूल एग्रीगेशन के साथ गणितीय तर्क को मापना

एक सरल "पुनः प्रयास" से बहु-मोड़ एलएलएम तर्क प्राप्त हो सकता है

ज्यामिति समस्या समाधान के लिए गहन शिक्षण का एक सर्वेक्षण

सामान्यीकृत वृक्ष संपादन दूरी (GTED): कथन स्वचालितकरण के लिए एक विश्वसनीय मूल्यांकन मीट्रिक

आदर्श MHD संतुलन का तंत्रिका-नेटवर्क सॉल्वर

GPU कर्नेल वैज्ञानिक: पुनरावृत्त कर्नेल अनुकूलन के लिए एक LLM-संचालित फ्रेमवर्क

SPARE: स्वचालित प्रक्रिया पर्यवेक्षण और पुरस्कार मॉडलिंग के लिए संदर्भ-निर्देशित मूल्यांकन के साथ एकल-पास एनोटेशन

पॉइज़नस्वार्म: मॉडल क्राउडसोर्सिंग के माध्यम से सार्वभौमिक हानिकारक सूचना संश्लेषण

स्पेकएक्सटेंड: लंबे अनुक्रमों के अनुमानित डिकोडिंग के लिए एक ड्रॉप-इन संवर्द्धन

एक पाठ-आधारित अनुशंसा प्रणाली जो स्पष्ट भावात्मक स्थिति वरीयताओं का लाभ उठाती है

प्रक्रिया निगरानी में हाइब्रिड अनुकूली मॉडलिंग: अनुक्रम एनकोडर और भौतिकी-सूचित तंत्रिका नेटवर्क का लाभ उठाना

सीसीडी: आजीवन जनरेटिव मॉडलिंग के लिए निरंतर संगति प्रसार

अनुशंसा प्रणालियों के लिए खोज क्वेरी डेटासेट को बढ़ाना और स्केल करना

पुनर्निर्माण के बिना फूरियर पाइकोग्राफिक माइक्रोस्कोपी माप से प्रत्यक्ष छवि वर्गीकरण

मेडअरबीक्यू: अरबी चिकित्सा कार्यों पर बड़े भाषा मॉडल की बेंचमार्किंग

रोगात्मक भाषण में स्वचालित गुमनामीकरण के अवधारणात्मक निहितार्थ

प्लगइन ऑन्टोलॉजी के माध्यम से त्रिपक्षीय-ग्राफआरएजी

DIDS: बड़े भाषा मॉडल प्रशिक्षण के लिए डोमेन प्रभाव-जागरूक डेटा नमूनाकरण

MSCCL++: अत्याधुनिक AI अनुप्रयोगों के लिए GPU संचार अमूर्तता पर पुनर्विचार

FedEFC: शोर लेबल के विरुद्ध उन्नत अग्र सुधार का उपयोग करते हुए फ़ेडरेटेड लर्निंग

उपयोगिता-केंद्रित एनोटेशन के लिए एलएलएम का लाभ उठाना: पुनर्प्राप्ति और आरएजी के लिए मैन्युअल प्रयास को कम करना

CO-बेंच: कॉम्बिनेटोरियल ऑप्टिमाइज़ेशन के लिए एल्गोरिथम खोज में भाषा मॉडल एजेंटों की बेंचमार्किंग

तुलनात्मक स्पष्टीकरण: मानव-इन-द-लूप वरीयता चयन के लिए निर्देशित निर्णय लेने की व्याख्या

जेन्सन-शैनन स्कोर आसवन का उपयोग करके टेक्स्ट-टू-3D जनरेशन

क्या बड़े भाषा मॉडल मानवीय प्रतिक्रियाओं का अनुकरण कर सकते हैं? तापन-संबंधी विकल्पों के संदर्भ में घोषित वरीयता प्रयोगों का एक केस स्टडी

सौम्य आयात विषाक्त: प्रतिकूल रूपकों के माध्यम से भाषा मॉडल को जेलब्रेक करना

छोटे-बड़े भाषा मॉडल संगतता सत्यापन के माध्यम से सहयोगात्मक रुख का पता लगाना

PAR-AdvGAN: प्रगतिशील ऑटो-रिग्रेशन AdvGAN के साथ प्रतिकूल हमले की क्षमता में सुधार

सोटेरिया: बहुभाषी सुरक्षा संरेखण के लिए भाषा-विशिष्ट कार्यात्मक पैरामीटर संचालन

एक उदाहरण दिखाया, कई अवधारणाएँ ज्ञात! गणितीय LLM में प्रति-उदाहरण-आधारित संकल्पनात्मक तर्क

शीर्ष-थीटा ध्यान: क्षतिपूर्ति थ्रेशोल्डिंग द्वारा ट्रांसफॉर्मर्स को स्पर्सिफाई करना

सिग्मा: शेफ-सूचित ज्यामितीय बहु-एजेंट पथ-खोज

क्रिया के रूप में स्कोर: सतत-समय सुदृढीकरण अधिगम द्वारा विसरण जनरेटिव मॉडल का सूक्ष्म समायोजन

गोपनीयता-जागरूक मानसिक स्वास्थ्य एआई मॉडल की ओर: प्रगति, चुनौतियाँ और अवसर

जनरेटिव एआई और शमन रणनीतियों की नैतिक चिंताएँ: एक व्यवस्थित मानचित्रण अध्ययन

क्या मतिभ्रम मददगार हो सकता है? दवा खोज के लिए LLM को बढ़ावा देना

एआई-संचालित सीपीएस-सक्षम शहरी परिवहन डिजिटल ट्विन: विधियाँ और अनुप्रयोग

लर्नएलएम: सीखने के लिए जेमिनी को बेहतर बनाना

कंप्यूट-कुशल मॉडल लैडर के माध्यम से कार्य स्केलिंग नियमों की स्थापना

संबंधपरक विसंगतियों को हल करने के दो रास्ते

प्रदर्शन का दबाव एआई-सहायता प्राप्त निर्णय लेने को कैसे प्रभावित करता है

ऑटोवेरस: रस्ट कोड के लिए स्वचालित प्रूफ जनरेशन

संतुलन: एलएलएम के लिए प्राथमिकता रणनीतियाँ - डिज़ाइन्ड रेस्टलेस बैंडिट रिवॉर्ड्स

मल्टीमॉडल सिमेंटिक एम्बेडिंग के लिए ऑर्डर-प्रिजर्विंग आयाम न्यूनीकरण

स्वास्थ्य सेवा के लिए भावना तर्क

व्युत्क्रम समस्याओं को हल करने के लिए पैच-आधारित प्रसार मॉडल के माध्यम से छवि प्राथमिकताओं को सीखना

अप्रशिक्षित तंत्रिका संयोजन अनुकूलन के लिए एक प्रसार मॉडल ढांचा

जनरेटिव एआई में चुनौतियों और अवसरों पर

स्किप कनेक्शन के साथ पूर्णतः कन्वोल्यूशनल और डिफरेंशियल फ्रंट एंड के माध्यम से ग्रेडिएंट हमलों के प्रति उल्लेखनीय लचीलेपन का एक अनोखा मामला

व्याख्या योग्य बायेसियन अनुकूलन

ऑनलाइन शिक्षा में लक्ष्य-उन्मुख बुद्धिमान ट्यूटरिंग प्रणालियों की ओर

असतत अनुकूलन के माध्यम से अप्रशिक्षित ऑटोमेटा सीखना

विशेषज्ञ-निर्देशित वृहद भाषा मॉडल तर्क के माध्यम से स्वचालित अनुकूलन मॉडलिंग

ऑन-द-फ्लाई एलटीएलएफ संश्लेषण के लिए एक रचनात्मक ढांचा

हाइपर: साहित्य-आधारित परिकल्पना निर्माण और उत्पत्ति के साथ आसवन

लंबाई-जागरूक अनुकूलन के माध्यम से तर्क मॉडल के लिए कुशल आरएल प्रशिक्षण

VERUS-LM: प्रतीकात्मक तर्क के साथ LLM को संयोजित करने के लिए एक बहुमुखी ढांचा

गणितीय तर्क के लिए मोटे-से-सूक्ष्म प्रक्रिया पुरस्कार मॉडलिंग

प्रोत्साहन और अभ्यास प्रदान करके कृत्रिम तंत्रिका नेटवर्क के लिए पारंपरिक चुनौतियों पर काबू पाना

एमवी-आरएजी: पुनर्प्राप्ति संवर्धित मल्टीव्यू डिफ्यूजन

स्वायत्त नेविगेशन के लिए पदानुक्रमित निर्णय लेना: चार-पहिया स्वतंत्र स्टीयरिंग और ड्राइविंग प्रणालियों में गहन सुदृढीकरण सीखने और फ़ज़ी लॉजिक को एकीकृत करना

किडनी कैंसर में सटीक ऑन्कोलॉजी के लिए रोग-केंद्रित दृष्टि-भाषा आधार मॉडल

विरल लेकिन गलत: गलत L0 विरल ऑटोएनकोडर्स में गलत विशेषताओं की ओर ले जाता है

वास्तविक-विश्व छवि सुपर-रिज़ॉल्यूशन के लिए समय-जागरूक एक चरण प्रसार नेटवर्क

अवमंदित नेस्टरोव त्वरण के साथ उन्नत NIRMAL अनुकूलक: एक तुलनात्मक विश्लेषण

आरएल न तो रामबाण है और न ही मृगतृष्णा: एलएलएम के लिए पर्यवेक्षित बनाम सुदृढीकरण सीखने की बारीकियां समझना

खुली दुनिया का पता लगाने की दिशा में: एक सर्वेक्षण

स्थिर अणु निर्माण के लिए सुदृढीकरण अधिगम के साथ प्रसार मॉडल का मार्गदर्शन करना

शहरी 3D वातावरण में कुशल नेविगेशन के लिए यूएवी पथ नियोजन एल्गोरिदम का तुलनात्मक विश्लेषण

FLAMES: डेटा संश्लेषण पाइपलाइन के सूक्ष्म विश्लेषण के माध्यम से LLM गणित तर्क में सुधार

शून्य-शॉट सुदृढीकरण सीखने पर

जोड़ीदार रैंकिंग के माध्यम से पोस्ट हॉक रिग्रेशन परिशोधन

सेफस्पेस: डिजिटल सुरक्षा और भावनात्मक कल्याण के लिए एक एकीकृत वेब एप्लिकेशन

FraPPE: तेज़ और कुशल वरीयता-आधारित शुद्ध अन्वेषण

कैंसर लक्षण वर्णन के लिए ऊतक विज्ञान और ट्रांसक्रिप्टोमिक्स का विच्छेदित बहु-मॉडल शिक्षण

HOSt3R: RGB छवियों से की-पॉइंट-मुक्त हैंड-ऑब्जेक्ट 3D पुनर्निर्माण

PediatricsMQA: एक बहु-मोडल बाल चिकित्सा प्रश्न उत्तर बेंचमार्क

ओपेरा: एक सुदृढीकरण सीखना - तर्क-उन्मुख बहु-हॉप पुनर्प्राप्ति के लिए उन्नत ऑर्केस्ट्रेटेड प्लानर-एग्जीक्यूटर आर्किटेक्चर

CaRL: सरल पुरस्कारों के साथ स्केलेबल योजना नीतियों को सीखना

Created by

Haebom

लेखक

बर्नहार्ड जैगर, डेनियल डौनर, जेन्स बेईवेंगर, साइमन गेरस्टेनेकर, कश्यप चित्ता, एंड्रियास गीगर

रूपरेखा

यह शोधपत्र स्वचालित ड्राइविंग में विशेषाधिकार प्राप्त नियोजन हेतु सुदृढीकरण अधिगम (RL) का अध्ययन करता है। मौजूदा दृष्टिकोण नियम-आधारित हैं, लेकिन उनमें मापनीयता का अभाव है। इसके विपरीत, RL उच्च मापनीयता प्रदान करता है और अनुकरण अधिगम की संचयी त्रुटि समस्या से बचाता है। स्वचालित ड्राइविंग के लिए मौजूदा RL दृष्टिकोण जटिल पुरस्कार फलनों का उपयोग करते हैं जो प्रगति, स्थिति और अभिविन्यास जैसे कई व्यक्तिगत पुरस्कारों को एकत्रित करते हैं। यह शोधपत्र दर्शाता है कि मिनी-बैच आकार बढ़ने पर PPO इन पुरस्कार फलनों को अनुकूलित करने में विफल रहता है, जिससे इसकी मापनीयता सीमित हो जाती है। इसलिए, यह शोधपत्र एक नवीन पुरस्कार डिज़ाइन प्रस्तावित करता है जो एकल सहज पुरस्कार, पथ पूर्णता, को अनुकूलित करता है। उल्लंघनों के लिए प्रकरण को समाप्त करके या पथ पूर्णता को गुणा करके दंडित किया जाता है। हम प्रदर्शित करते हैं कि प्रस्तावित सरल पुरस्कार के साथ प्रशिक्षित PPO बड़े मिनी-बैच आकारों के साथ अच्छी तरह से मापता है और बेहतर प्रदर्शन प्राप्त करता है। बड़े मिनी-बैच आकारों के साथ प्रशिक्षण वितरित डेटा समानांतरता के माध्यम से कुशल मापन को सक्षम बनाता है। हमने एकल 8-GPU नोड पर CARLA में 300 मिलियन नमूनों और nuPlan में 500 मिलियन नमूनों तक प्रशिक्षण को बढ़ाया। परिणामी मॉडल ने CARLA longest6 v2 बेंचमार्क पर 64 DS अंक प्राप्त किए, जो अधिक जटिल रिवॉर्ड्स का उपयोग करने वाली अन्य RL विधियों से उल्लेखनीय रूप से बेहतर प्रदर्शन था। CARLA पद्धति में न्यूनतम संशोधनों के साथ, इसने nuPlan पर सर्वोत्तम शिक्षण-आधारित दृष्टिकोण भी प्राप्त किया। Val14 बेंचमार्क पर, इसने गैर-प्रतिक्रियाशील ट्रैफ़िक के लिए 91.3 अंक और प्रतिक्रियाशील ट्रैफ़िक के लिए 90.6 अंक प्राप्त किए, जो पिछले शोध की तुलना में 10 गुना सुधार था।

Takeaways, Limitations

•

Takeaways:

◦

हम एक सरल पथ पूर्णता पुरस्कार फ़ंक्शन का उपयोग करके PPO की मापनीयता में महत्वपूर्ण सुधार करते हैं।

◦

हम बड़े डेटासेट को कुशलतापूर्वक सीखने के लिए एक विधि प्रस्तुत करते हैं।

◦

हमने CARLA और nuPlan दोनों बेंचमार्क पर SOTA प्रदर्शन हासिल किया।

◦

हम मौजूदा जटिल पुरस्कार कार्यों की तुलना में एक सरल और अधिक प्रभावी पुरस्कार कार्य का प्रस्ताव करते हैं।

•

Limitations:

◦

यह निर्धारित करने के लिए कि क्या प्रस्तावित विधि सभी स्वचालित ड्राइविंग वातावरणों पर लागू है, आगे अनुसंधान की आवश्यकता है।

◦

पुरस्कार फ़ंक्शन के सरलीकरण के परिणामस्वरूप कुछ स्थितियों में प्रदर्शन में गिरावट आ सकती है।

◦

चूंकि प्रयोग के परिणाम 8-GPU नोड्स का उपयोग करके प्राप्त किए गए थे, इसलिए कम GPU वाले वातावरण में प्रदर्शन की पुष्टि नहीं की गई है।

पीडीएफ देखें

Made with Slashpage