दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

सीएमफिजबेंच: संघनित पदार्थ भौतिकी में बड़े भाषा मॉडलों के मूल्यांकन के लिए एक बेंचमार्क

एडीए-ट्रांसजीएनएन: अनुकूली ग्राफ कन्वोल्यूशनल नेटवर्क पर आधारित एक वायु गुणवत्ता पूर्वानुमान मॉडल

एब्लेशन के रूप में अनलर्निंग: जनरेटिव वैज्ञानिक खोज के लिए एक मिथ्याकरणीय बेंचमार्क की ओर

अपूर्ण-सूचना खेलों में स्थिर प्रतिद्वंद्वियों का सुसंगत प्रतिद्वंद्वियों का मॉडलिंग

हेस्टैक में आउटलायर्स का पता लगाना: बड़े पॉइंटक्लाउड दृश्यों के लिए विसंगति का पता लगाना

सॉफ्टवेयर के लिए एजेंटिक एआई: सॉफ्टवेयर इंजीनियरिंग समुदाय के विचार

(भाषा) अंतर पर ध्यान दें: LVLMs की संख्यात्मक और अंतर-भाषाई सीमाओं की जांच की दिशा में

अन्वेषण की अड़चन को तोड़ना: सामान्य एलएलएम तर्क के लिए रूब्रिक-स्कैफोल्डेड सुदृढीकरण सीखना

ड्रीम टू चैट: उपयोगकर्ता विश्वास मॉडलिंग के साथ संवाद पर मॉडल-आधारित सुदृढीकरण सीखना

वॉयस ऑथेंटिकेशन और एंटी-स्पूफिंग सिस्टम के खिलाफ खतरों का एक सर्वेक्षण

अनुसंधान और शिक्षण में जनरेटिव आर्टिफिशियल इंटेलिजेंस और एजेंट

CALR: कुशल वृहद भाषा मॉडल परत संपीड़न के लिए सुधारात्मक अनुकूली निम्न-रैंक अपघटन

शहरी 3D वातावरण में कुशल नेविगेशन के लिए यूएवी पथ नियोजन एल्गोरिदम का तुलनात्मक विश्लेषण

संदर्भ-आधारित तंत्रिका त्रुटि-पुस्तिका के माध्यम से उन्नत फीडबैक पुनर्प्राप्ति

एलएलएम में आत्मविश्वास से पतन तक तथ्यात्मक मजबूती

कार्य वेक्टर और ग्रेडिएंट पर

भुगतान हेरफेर के साथ बार-बार बहु-उद्देश्यीय स्टैकेलबर्ग खेलों में सीखना

NVIDIA नेमोट्रॉन नैनो 2: एक सटीक और कुशल हाइब्रिड माम्बा-ट्रांसफार्मर रीजनिंग मॉडल

DLLMQuant: प्रसार-आधारित बड़े भाषा मॉडल का परिमाणीकरण

एलएलएम - अनुशंसाओं के लिए उन्नत रैखिक ऑटोएनकोडर

ENSO की भविष्यवाणी में MEF विधि को बढ़ाने के लिए GNN का लाभ उठाना

अवरोध-जागरूक चेहरे के परिवर्तन के लिए अनिश्चितता-निर्देशित फेस मैटिंग

कक्षा में नया बच्चा: एआई कोडिंग सहायकों के बारे में छात्रों की धारणाओं का अन्वेषण

स्वचालित जनरेशन नियंत्रण प्रणालियों में व्याख्या योग्य साइबर हमले का पता लगाने के लिए वृहद भाषा मॉडल-आधारित ढाँचा

एसकेए-बेंच: एलएलएम की संरचित ज्ञान समझ के मूल्यांकन के लिए एक सूक्ष्म बेंचमार्क

एप्पल इंटेलिजेंस फाउंडेशन लैंग्वेज मॉडल: तकनीकी रिपोर्ट 2025

एसई-वीएलएन: बहुविधीय वृहद भाषा मॉडलों पर आधारित एक स्व-विकसित दृष्टि-भाषा नेविगेशन फ्रेमवर्क

बाल चिकित्सा कलाई फ्रैक्चर का जनसांख्यिकीय-जागरूक सूक्ष्म वर्गीकरण

क्रुल: गतिशील क्रॉस-लेयर केवी शेयरिंग के साथ बहु-टर्न वार्तालापों के लिए कुशल स्थिति बहाली

सौर ऊंचाई निर्देशित दृश्य रोशनी

ट्रेस करने योग्य तर्क के साथ दुर्लभ रोग निदान के लिए एक एजेंटिक प्रणाली

आवर्त सारणी में स्पेक्ट्रा-से-संरचना और संरचना-से-स्पेक्ट्रा अनुमान

यूएडी: रोबोटिक हेरफेर में सामान्यीकरण के लिए अप्रशिक्षित सामर्थ्य आसवन

पता लगाने के लिए बहस: बड़े भाषा मॉडल के साथ गलत सूचना का पता लगाने को वास्तविक दुनिया की बहस के रूप में पुनर्परिभाषित करना

ईवीएम-फ्यूजन: न्यूरल एल्गोरिथमिक फ्यूजन के साथ एक व्याख्या योग्य विजन माम्बा आर्किटेक्चर

RePPL: व्याख्या योग्य QA मतिभ्रम का पता लगाने के लिए अर्थ प्रसार और भाषा निर्माण में अनिश्चितता द्वारा व्याकुलता का पुनर्निर्धारण

ध्वनि घटना का पता लगाने के लिए SSL पर पुनर्विचार: पूरक संलयन और अनुकूली पोस्ट-प्रोसेसिंग

न्यूरल चंकिंग के माध्यम से अवधारणा-निर्देशित व्याख्या

जंगल में एलएलएम तैनाती के परिदृश्य का अनावरण: एक अनुभवजन्य अध्ययन

कानूनी मानदंडों के लिए एक ऑन्टोलॉजी-संचालित ग्राफ आरएजी: एक पदानुक्रमित, लौकिक और नियतात्मक दृष्टिकोण

प्रीफ़िल-स्तरीय जेलब्रेक: बड़े भाषा मॉडल का ब्लैक-बॉक्स जोखिम विश्लेषण

मल्टी-व्यू इकोकार्डियोग्राफी व्याख्या के लिए वीडियो क्लिप मॉडल

रेटिनल फंडस छवियों से अंतर्निहित रूप से व्याख्या योग्य रोग का पता लगाने के लिए एक हाइब्रिड पूर्णतः कन्वोल्यूशनल सीएनएन-ट्रांसफार्मर मॉडल

M$^2$IV: प्रतिनिधित्व इंजीनियरिंग के माध्यम से कुशल और सूक्ष्म बहुविधीय संदर्भ-आधारित शिक्षण की ओर

शोर-आधारित पुरस्कार-संशोधित शिक्षण

टोकन अतिरेक में कमी के साथ तेज़ पैरामीटर-कुशल ट्यूनिंग

यूनीजेनएक्स: एक एकीकृत जनरेटिव आधार मॉडल जो प्रोटीन, अणुओं और सामग्रियों में वैज्ञानिक डिजाइन को गति देने के लिए अनुक्रम, संरचना और कार्य को जोड़ता है

विचार-विमर्श बढ़ाने वाली संवाद प्रणालियों के साथ डीपफेक टेक्स्ट का सहयोगात्मक मूल्यांकन

बड़े भाषा मॉडल विकल्प की लंबाई, समस्या के प्रकार और अप्रासंगिक संज्ञा प्रतिस्थापनों के संबंध में खराब सामान्यीकरण करते हैं

टेबलटॉक: भाषा एजेंट के साथ स्प्रेडशीट विकास का ढांचा तैयार करना

स्टैगफॉर्मर: समानांतर में रनिंगलेयर्स के लिए टाइम स्टैगिंग ट्रांसफॉर्मर डिकोडिंग

हाइब्रिड ज़ोनोटोप रीचैबिलिटी विश्लेषण का उपयोग करके प्रमाणित रूप से सुरक्षित न्यूरल नेटवर्क प्रशिक्षण

जनरेटिव आर्टिफिशियल इंटेलिजेंस-समर्थित पेनटेस्टिंग: क्लाउड ओपस, GPT-4 और कोपायलट के बीच तुलना

एंट्रोपिक अन्वेषण के माध्यम से सुरक्षित मल्टीएजेंट समन्वय

टीएल-प्रशिक्षण: उपकरण उपयोग में बड़े भाषा मॉडल के प्रशिक्षण के लिए एक कार्य-विशेषता-आधारित ढांचा

एआई धारणा के सांस्कृतिक आयाम: जर्मनी और चीन में अपेक्षाएँ, जोखिम, लाभ, समझौते और मूल्य का निर्धारण

सीएडी-सहायक: सामान्य सीएडी कार्य समाधानकर्ता के रूप में उपकरण-संवर्धित वीएलएलएम

विशेषज्ञों और जनता के बीच जोखिम, लाभ और मूल्य में धारणा का अंतर सामाजिक रूप से स्वीकृत एआई को चुनौती देता है

ऑब्जेक्ट पुनर्व्यवस्था के लिए पदानुक्रमित ऑब्जेक्ट-ओरिएंटेड POMDP योजना

इरादों से बातचीत तक: बहु-बारी वर्गीकरण के लिए विपरीत शिक्षण के साथ इरादे-संचालित संवाद उत्पन्न करना

शफल गोपनीयता मॉडल के माध्यम से सुरक्षित सुदृढीकरण सीखना

लक्ष्य-जागरूक संघीय शिक्षा के साथ लेबल बदलाव पर काबू पाना

मानव-संरेखित मूल्यांकनों के साथ XAI स्पष्टीकरणों की बेंचमार्किंग

HonestCyberEval: स्वचालित सॉफ़्टवेयर शोषण के लिए एक AI साइबर जोखिम बेंचमार्क

विषम ग्राफ प्रतिनिधित्व सीखने के लिए बहु-पहलू पथों का लाभ उठाना

जीनेट: नेटवर्क टोपोलॉजी और कॉन्फ़िगरेशन के लिए एक मल्टीमॉडल एलएलएम-आधारित सह-पायलट

चैटजीपीटी को चार्जर्स प्रशंसकों पर भरोसा नहीं है: संदर्भ में गार्डरेल संवेदनशीलता

अहं-दूरदर्शिता: बेहतर RL के लिए एजेंट-जागरूक अभ्यावेदन का स्व-पर्यवेक्षित शिक्षण

ध्यान विश्लेषण के माध्यम से सारणीबद्ध प्रश्नोत्तर के लिए भाषा मॉडल की मजबूती की खोज

पिक्सेल से काउंटी सीखना: ध्यान-भारित बहु-उदाहरण सीखने के साथ मक्का उपज का पूर्वानुमान

छवि पुनर्स्थापना के लिए आपको केवल मेमोरी संवर्द्धन की आवश्यकता है

वितरण बदलावों पर पुनर्विचार: सारणीबद्ध आंकड़ों के लिए अनुभवजन्य विश्लेषण और आगमनात्मक मॉडलिंग

डिफब्लेंडर: संयोज्य और बहुमुखी मल्टीमॉडल टेक्स्ट-टू-इमेज डिफ्यूजन मॉडल

विभेदक पैटर्न से परे: निर्णय नियम समूहों की मजबूती पर

स्वायत्त सुरक्षित ग्रहीय लैंडिंग के लिए विभाजन हेतु बायेसियन गहन शिक्षण

एसटी-रैप्टर: एलएलएम-संचालित अर्ध-संरचित टेबल प्रश्नोत्तर

रूट-एंड-एक्ज़ीक्यूट: ऑडिटेबल मॉडल-कार्ड मिलान और विशेषता-स्तरीय परिनियोजन

औषधि परिसंपत्ति के समुचित परिश्रम में प्रतिस्पर्धी परिदृश्य मानचित्रण के लिए एलएलएम-आधारित एजेंट

चैटबॉट्स के साथ परासामाजिक संबंधों को रोकने के लिए प्रतिक्रिया और त्वरित मूल्यांकन

प्रोफ़ाइल-जागरूक पैंतरेबाज़ी: AWorld द्वारा मजबूत GAIA समस्या समाधान के लिए एक गतिशील बहु-एजेंट प्रणाली

एआई-आधारित प्रणालियों के लिए नैतिकता अधिवक्ता के रूप में मल्टी-एजेंट एलएलएम

मॉडल भविष्यवाणियों के गैर-विशेषज्ञ मूल्यांकन के लिए विशेषता-निर्देशित पड़ोसी चयन

नैदानिक सहयोग की रूपरेखा: बहुविध चिकित्सा VQA के लिए बहु-एजेंट तर्क प्रणालियाँ

MRAG: मल्टी-मोडल रिट्रीवल-ऑगमेंटेड जेनरेशन के डिज़ाइन स्पेस को स्पष्ट करना

जिगसॉ-पज़ल्स: दृष्टि-भाषा मॉडल में देखने से लेकर समझने और तर्क करने तक

एलएलएम-संचालित रणनीतिक तर्ककर्ताओं में मानव-प्रेरित एजेंटिक परिष्कार का प्रभाव

यूलान-वनसिम: बड़े भाषा मॉडल के साथ सामाजिक सिम्युलेटर की अगली पीढ़ी की ओर

गति में सहमति: संभाव्यता एकत्रीकरण में अनुक्रमिक अधिगम की गतिशील तर्कसंगतता का एक मामला

क्या बड़े भाषा मॉडल मल्टी-जीएनएन के लिए एनसेम्बलर के रूप में कार्य कर सकते हैं?

मजबूत POMDP के लिए RNNs के साथ निराशावादी पुनरावृत्तीय योजना

अनुकूली परिरक्षण के माध्यम से ब्लैक-बॉक्स वातावरण में सुरक्षित सुदृढीकरण सीखना

बेहतर कारणात्मक खोज के लिए बड़े भाषा मॉडल को एकीकृत करना

कारण खोज पर एक सर्वेक्षण: सिद्धांत और व्यवहार

भाषा मॉडल के लिए जनरेटिव इंटरफेस

डेटा विस्तार के लिए एम्बेडिंग स्पेस में स्पीकर पहचानों का अंतर्वेशन

वाइबवॉयस तकनीकी रिपोर्ट

एलएसडी-3डी: ज्यामिति ग्राउंडिंग के साथ बड़े पैमाने पर 3डी ड्राइविंग दृश्य निर्माण

टूल-एकीकृत तर्क को समझना

अस्पष्टता-जागरूक क्रमिक निरूपण के रूप में भावनाएँ

बंद-लूप रोबोट प्रतिक्रियाशील योजना के लिए वास्तविक समय मॉडल जाँच

अन्वेषण की अड़चन को तोड़ना: सामान्य एलएलएम तर्क के लिए रूब्रिक-स्कैफोल्डेड सुदृढीकरण सीखना

Created by

Haebom

लेखक

यांग झोउ, सुंझू ली, शुन्यू लियू, वेनकाई फेंग, जियाल झाओ, जिंगवेन यांग, जियानवेई लव, कोंगचेंग झांग, यिहे झोउ, हेंगटोंग लू, वेई चेन, यान झी, मिंगली सॉन्ग

रूपरेखा

यह शोधपत्र बड़े पैमाने के भाषा मॉडलों (एलएलएम) की अनुमान क्षमता में सुधार के लिए सुदृढीकरण अधिगम (आरएल) का लाभ उठाने की एक विधि प्रस्तुत करता है। मौजूदा आरएल-आधारित एलएलएम प्रशिक्षण उच्च-गुणवत्ता वाले नमूनों पर निर्भर करता है, लेकिन एलएलएम की अंतर्निहित सीमाएँ इन नमूनों के अन्वेषण को सीमित करती हैं। इस समस्या के समाधान के लिए, यह शोधपत्र एक नवीन ढाँचे, रूब्रिक-स्कैफोल्डेड सुदृढीकरण अधिगम (रुस्काआरएल) का प्रस्ताव करता है। रुस्काआरएल, रोलआउट निर्माण चरण के दौरान विविध, उच्च-गुणवत्ता वाली प्रतिक्रियाओं को प्रेरित करने के लिए चेकलिस्ट-शैली के रूब्रिक का उपयोग करता है और मॉडल प्रशिक्षण चरण के दौरान रूब्रिक के आधार पर विश्वसनीय पुरस्कार प्रदान करता है। परिणामस्वरूप, रुस्काआरएल विभिन्न बेंचमार्क पर मौजूदा विधियों से बेहतर प्रदर्शन करता है। विशेष रूप से, यह हेल्थबेंच-500 पर Qwen2.5-7B-Instruct के प्रदर्शन को 23.6 से 50.3 तक और Qwen3-30B-A3B-Instruct के प्रदर्शन को 61.1 तक सुधारता है, जो GPT-4.1 और OpenAI-o3 से बेहतर प्रदर्शन करता है।

Takeaways, Limitations

•

Takeaways:

◦

हम दर्शाते हैं कि एलएलएम की तर्क क्षमता को चेकलिस्ट-शैली रूब्रिक का उपयोग करके सुदृढीकरण सीखने के ढांचे (रुस्काआरएल) के माध्यम से प्रभावी ढंग से सुधारा जा सकता है।

◦

विभिन्न बेंचमार्क पर अत्याधुनिक प्रदर्शन हासिल किया, विशेष रूप से हेल्थबेंच-500 पर GPT-4.1 से बेहतर प्रदर्शन किया।

◦

रूब्रिक-आधारित अन्वेषण और पुरस्कार रणनीतियाँ एलएलएम की तर्क क्षमता में सुधार के लिए एक प्रभावी पद्धति प्रस्तुत करती हैं।

•

Limitations:

◦

अनुसंधान अभी प्रगति पर है, तथा कोड, मॉडल और डेटासेट बाद में जारी किये जायेंगे।

◦

रूब्रिक डिज़ाइन की गुणवत्ता से प्रदर्शन पर महत्वपूर्ण प्रभाव पड़ सकता है। रूब्रिक डिज़ाइन के लिए विस्तृत विवरण और दिशानिर्देशों का अभाव है।

◦

विभिन्न प्रकार की अनुमान समस्याओं के लिए सामान्यीकरण प्रदर्शन मूल्यांकन का अभाव।

पीडीएफ देखें

Made with Slashpage