दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

संरचना स्थानांतरण: अभ्यावेदन के परिवर्तन के लिए एक अनुमान-आधारित कलन

MIDOG 2025 ट्रैक 2 के लिए पैथोलॉजी फाउंडेशन मॉडल का समूह: असामान्य माइटोसिस वर्गीकरण

ऑडियोकोडेकबेंच: ऑडियो कोडेक मूल्यांकन के लिए एक व्यापक बेंचमार्क

अंतरिक्ष को समझना रॉकेट साइंस है -- केवल शीर्ष तर्क मॉडल ही स्थानिक समझ के कार्यों को हल कर सकते हैं

DaMoC: डेटा और मॉडल संपीड़न के आधार पर डोमेन कार्यों को ठीक करने के लिए इष्टतम बड़े भाषा मॉडल का कुशलतापूर्वक चयन करना

भाषा मॉडल प्रशिक्षण और मूल्यांकन में सिंथेटिक दीर्घ-संदर्भ डेटा निर्माण के लिए मॉड्यूलर तकनीकें

EZhouNet: श्वसन ध्वनि घटना का पता लगाने के लिए ग्राफ न्यूरल नेटवर्क और एंकर अंतराल पर आधारित एक ढांचा

AImoclips: पाठ-से-संगीत निर्माण में भावना संप्रेषण के मूल्यांकन हेतु एक मानक

टाइमकोपायलट

डिकप्लड बैकप्रोपेगेशन के माध्यम से प्रथम क्रम मॉडल-आधारित आरएल

उच्च शिक्षा कक्षाओं में जनरेटिव एआई और आलोचनात्मक सोच पर पायलट अध्ययन

बीकन: एकीकृत ग्रिड चयन के साथ प्रशिक्षण-पश्चात परिमाणीकरण

क्या कृत्रिम बुद्धिमत्ता भूविज्ञान के अंतर्राष्ट्रीय शैक्षणिक समुदाय के परिदृश्य को नया आकार दे रही है?

क्वांटम ट्रांसफॉर्मर के लिए सीखने योग्य एन्कोडिंग के साथ वेक्टरीकृत ध्यान

ट्रांसप्लांट फिर रीजेनरेट: टेक्स्ट डेटा संवर्द्धन के लिए एक नया प्रतिमान

आरएलवीआर में गहराई-चौड़ाई का तालमेल: अनुकूली अन्वेषण के साथ एलएलएम तर्क लाभ को अनलॉक करना

मल्टीजेन: एलएलएम के साथ बच्चों के अनुकूल बहुभाषी भाषण जनरेटर

स्ट्रीटव्यूएआई: संदर्भ-जागरूक मल्टीमॉडल एआई का उपयोग करके स्ट्रीट व्यू को सुलभ बनाना

स्ट्रीट-लेवल एआई: क्या बड़े भाषा मॉडल वास्तविक दुनिया के निर्णयों के लिए तैयार हैं?

केजी-ईआर वैचारिक स्कीमा भाषा

ढेर सारा फ़ैशन! स्केच-टेक्स्ट पेयरिंग के ज़रिए इमेज बनाने के लिए मल्टी-कंडीशनिंग

उच्च दक्षता वाले वीडियो संपीड़न के लिए सशर्त वीडियो निर्माण

ट्राईक्लिप-3डी: सीएलआईपी पर आधारित त्रि-मोडल 3डी विज़ुअल ग्राउंडिंग के लिए एक एकीकृत पैरामीटर-कुशल फ्रेमवर्क

बाल चिकित्सा कलाई फ्रैक्चर का जनसांख्यिकीय-जागरूक सूक्ष्म वर्गीकरण

क्रिया-मूल्य लौकिक-अंतर विधियों का विश्लेषण जो अवस्था मानों को सीखते हैं

स्टोकेस्टिक पैरामीटर अपघटन

ऑटो-रिग्रैसिव बनाम फ्लो-मैचिंग: टेक्स्ट-टू-म्यूजिक जेनरेशन के लिए मॉडलिंग प्रतिमानों का एक तुलनात्मक अध्ययन

मिनीसीपीएम4: अंतिम उपकरणों पर अति-कुशल एलएलएम

बहुउद्देश्यीय एचपीसी जॉब शेड्यूलिंग के लिए एलएलएम-आधारित तर्क की प्रभावकारिता का मूल्यांकन

मैं सही उत्तर दिए बिना अपना एलएलएम बेंचमार्क कैसे प्रकाशित कर सकता हूं?

एकल छवि सुपर-रिज़ॉल्यूशन में मॉड्यूल स्थानांतरणीयता का अनुकूलन: सार्वभौमिकता मूल्यांकन और चक्र अवशिष्ट ब्लॉक

हस्तांतरणीय मास्क ट्रांसफार्मर: क्षेत्र-अनुकूली हस्तांतरणीयता अनुमान के साथ क्रॉस-डोमेन सिमेंटिक सेगमेंटेशन

आरबीटी4डीएनएन: न्यूरल नेटवर्क का आवश्यकता-आधारित परीक्षण

राज्य-स्तरीय प्रक्षेप पथ सिलाई के माध्यम से सुदृढ़ ऑफ़लाइन अनुकरण शिक्षण

होलोग्राफी से परे: छवि प्रसंस्करण की एन्ट्रॉपी क्वांटम गुरुत्व नींव

नाइटर: एलएलएम-संश्लेषित चेकर्स के साथ स्थैतिक विश्लेषण का रूपांतरण

FRIDA बचाव के लिए! आपदा प्रतिक्रिया के लिए वस्तु-आधारित सामान्य ज्ञान तर्क में सिंथेटिक डेटा की प्रभावशीलता का विश्लेषण

CoDiff: सहयोगात्मक 3D ऑब्जेक्ट डिटेक्शन के लिए सशर्त प्रसार मॉडल

मेटा-इन-कॉन्टेक्स्ट लर्निंग के माध्यम से तीव्र शब्द सीखना

विविध कैप्शनिंग के लिए छवि एम्बेडिंग नमूनाकरण विधि

क्या नेत्र और प्रणालीगत रोगों का पता लगाने के लिए अल्ट्रा लार्ज प्राकृतिक छवि-आधारित फाउंडेशन मॉडल, रेटिना-विशिष्ट मॉडल से बेहतर है?

विस्तारित हिस्टोग्राम-आधारित आउटलायर स्कोर (EHBOS)

अनुकूलित बड़े भाषा मॉडल के लिए ग्राफ़ पुनर्प्राप्ति-संवर्धित पीढ़ी का एक सर्वेक्षण

दीर्घकालीन श्रृंखला पूर्वानुमान पर संदर्भ बाधा को तोड़ना

आंशिक-धारणा पर्यवेक्षण के माध्यम से दृष्टि हमलों के विरुद्ध LVLMs की रक्षा करना

ACING: ब्लैक-बॉक्स LLM में निर्देश सीखने के लिए अभिनेता-आलोचक

मानव-स्तरीय कागल डेटा विज्ञान प्रदर्शन वाले सामान्य एजेंटों के लिए कोल्ब-आधारित अनुभवात्मक शिक्षा

साक्ष्य-आधारित सिद्धांत के माध्यम से तंत्रिका नेटवर्क में अंशांकन त्रुटि का परिमाणीकरण

अपरिवर्तनीय सांख्यिकीय हानि के साथ बहुभिन्नरूपी और भारी-पूंछ वाले वितरणों के लिए अंतर्निहित जनरेटिव मॉडलों का सुदृढ़ प्रशिक्षण

10 डेमो से सीखें: उन्मुख सामर्थ्य फ़्रेमों के साथ सामान्यीकरण योग्य और नमूना-कुशल नीति सीखना

ऑटोपेटी III: ट्रेसर फ्रंटियर। कौन सा फ्रंटियर?

दीर्घ समय श्रृंखला पूर्वानुमान के लिए दीर्घ इनपुट अनुक्रम नेटवर्क

एफएफएफफ्लो: प्रवाह परिवर्तन अनुमान के माध्यम से विविध और अनिश्चितता-जागरूक निपुण समझ निर्माण

यूनिसॉल्वर: पीडीई-कंडीशनल ट्रांसफॉर्मर्स से यूनिवर्सल न्यूरल पीडीई सॉल्वर्स की ओर

एमटीपी: एआई-एकीकृत प्रोग्रामिंग के लिए एक अर्थ-प्रकारित भाषा अमूर्तन

प्रोटीन अनुक्रम निर्माण के लिए भाषा मॉडल एन्कोडिंग पर प्रसार

स्थिर प्रसार का उपयोग करके केल्विन और हॉब्स कॉमिक्स में शैली स्थानांतरण

स्वायत्तता, स्वचालन नहीं: मानव-केंद्रित एआई प्रणालियों के डिजाइन के आधार के रूप में यूरोपीय तथ्य-जांचकर्ताओं की गतिविधियाँ और आवश्यकताएँ

एलएलएम-आधारित सन्निहित कार्य पूर्णता एजेंटों के लिए योजना सत्यापन

आइजेनबेंच: मूल्य संरेखण का एक तुलनात्मक व्यवहारिक माप

ऑयस्टर-I: इनकार से परे - जिम्मेदार भाषा मॉडल के लिए रचनात्मक सुरक्षा संरेखण

FKG.in का विस्तार: खाद्य दावा अनुरेखण नेटवर्क की ओर

डीपविज़: चरणबद्ध तर्क के माध्यम से प्राकृतिक भाषा और डेटा विज़ुअलाइज़ेशन को जोड़ना

सक्रिय अनुमान का उपयोग करते हुए मन का सिद्धांत: बहु-एजेंट सहयोग के लिए एक रूपरेखा

सीपी-बेंच: बाधा मॉडलिंग के लिए बड़े भाषा मॉडल का मूल्यांकन

न्यूनतम को फॉलबैक के रूप में लेकर सेटों के रैखिक क्रम द्वारा प्रतिबंधित विकल्पों की स्वयंसिद्धता

डीएमएन-निर्देशित संकेत: एलएलएम व्यवहार को नियंत्रित करने के लिए एक रूपरेखा

सामाजिक सिमुलेशन में एलएलएम के निर्णय लेने का कम्प्यूटेशनल आधार

विभिन्न भाषाओं में विज्ञान: वैज्ञानिक पत्रों के बहुभाषी अनुवाद का मूल्यांकन

FKG.in को उन्नत बनाना: भारतीय खाद्य संरचना विश्लेषण को स्वचालित बनाना

WASP: सीखी गई नकलीपन का पता लगाने के लिए एक भार-स्थान दृष्टिकोण

क्वांटम सर्किट पर हस्तांतरणीय विश्वास मॉडल

पिन: युग्मित और इंटरलीव्ड मल्टीमॉडल दस्तावेज़ों के लिए एक ज्ञान-गहन डेटासेट

एआई में (अ)तर्कसंगतता: अत्याधुनिक स्थिति, अनुसंधान चुनौतियाँ और खुले प्रश्न

इंटेलिजेंस प्राइमर

क्रोनोग्राफ़: एक वास्तविक-विश्व ग्राफ़-आधारित बहुभिन्नरूपी समय श्रृंखला डेटासेट

डेल्टा सक्रियण: फ़ाइनट्यून्ड बड़े भाषा मॉडल के लिए एक प्रतिनिधित्व

डेक्सॉप: निपुण मानव हेरफेर के रोबोटिक हस्तांतरण के लिए एक उपकरण

प्रशिक्षण के बाद बड़े भाषा मॉडल के एकीकृत दृष्टिकोण की ओर

कोई विचार नहीं, केवल एआई: पक्षपातपूर्ण एलएलएम अनुशंसाएँ रिज्यूमे स्क्रीनिंग में मानवीय एजेंसी को सीमित करती हैं

आईपीए: कुशल फाउंडेशन मॉडल अनुकूलन के लिए सूचना-संरक्षण इनपुट प्रक्षेपण ढांचा

एसएसगॉसियन: अर्थ-जागरूक और संरचना-संरक्षण 3D शैली स्थानांतरण

स्व-पर्यवेक्षित अधिगम संवर्धित स्थानिक-कालिक उल्टे ट्रांसफार्मर के साथ बहु-स्रोत डेटा के संयोजन के माध्यम से पार्किंग उपलब्धता का पूर्वानुमान

PARCO: विपरीत इकाई असंबद्धता के माध्यम से ध्वनि-संवर्धित मजबूत प्रासंगिक ASR

ऑडेटर: ओपन वर्ल्ड्स में डीपफेक ऑडियो डिटेक्शन के लिए एक बड़े पैमाने का डेटासेट

संपादक से सघन ज्यामिति अनुमानक तक

Pinterest विज्ञापन रैंकिंग के लिए पृथक इकाई प्रतिनिधित्व सीखना

तथ्य तेजी से फीके पड़ जाते हैं: बड़े भाषा मॉडल में पुराने चिकित्सा ज्ञान के स्मरण का मूल्यांकन

ह्यूमैन-चैटबॉट: सुदृढीकरण सीखने के माध्यम से वास्तविक समय में व्यक्तिगत संवादात्मक एआई

डेटा-संचालित औपचारिक सत्यापन के साथ लिथियम-आयन बैटरी प्रणालियों के सुदृढ़ आयु-जागरूक नियंत्रण के लिए सुदृढीकरण सीखना

पायथन पैकेजों में कमजोरियों और उनकी पहचान का एक अनुभवजन्य अध्ययन

एलएलएम प्रायर्स के साथ हम कितने रोगियों को बचा सकते हैं?

GUI ग्राउंडिंग के लिए स्व-विकसित वरीयता अनुकूलन के माध्यम से सक्रिय बोध सीखना

मैग्नेट: सिंथेटिक मल्टी-टर्न मानसिक स्वास्थ्य परामर्श सत्रों का समन्वित मल्टी-एजेंट जनरेशन

विज़ियोफ़र्म: कंप्यूटर विज़न के लिए क्रॉस-प्लेटफ़ॉर्म AI-सहायता प्राप्त एनोटेशन टूल

प्रजाति विभाजन को पार करना: वाणी से पशु ध्वनियों तक स्थानांतरण अधिगम

पवन टरबाइन घटकों में यूएवी-आधारित मल्टीस्पेक्ट्रल दोष का पता लगाने के लिए YOLO एन्सेम्बल

एक अनुकूली फ़िल्टर के रूप में ध्यान

TAGAL: एजेंटिक LLM विधियों का उपयोग करके सारणीबद्ध डेटा निर्माण

आरएजी के लिए तकनीकी दस्तावेज़ पुनर्प्राप्ति को बढ़ाना

आरएलवीआर में गहराई-चौड़ाई का तालमेल: अनुकूली अन्वेषण के साथ एलएलएम तर्क लाभ को अनलॉक करना

Created by

Haebom

लेखक

झिचेंग यांग, झिजियांग गुओ, यिन्या हुआंग, योंगक्सिन वांग, डोंगचुन झी, यीवेई वांग, ज़ियाओदान लियांग, जिंग तांग

रूपरेखा

यह पत्र सुदृढीकरण अधिगम-आधारित सत्यापन योग्य पुरस्कार अधिगम (RLVR) में भाषा मॉडलों के अनुमान प्रदर्शन को बेहतर बनाने के दो प्रमुख कारकों, गहराई और चौड़ाई का विश्लेषण करता है। हम बताते हैं कि मौजूदा GRPO एल्गोरिथम, Limitations, मध्यम सटीकता वाले नमूनों को अधिक भार देता है और कम सटीकता वाले नमूनों को कम भार देता है, जो अनुमान प्रदर्शन को बेहतर बनाने के लिए महत्वपूर्ण हैं। इसे संबोधित करने के लिए, हम कठिनाई अनुकूली रोलआउट नमूनाकरण (DARS) का प्रस्ताव करते हैं, एक तकनीक जो कठिन समस्याओं पर बहु-चरण रोलआउट के माध्यम से भार को पुनर्संतुलित करती है। इसके अलावा, हम बैच आकार में उल्लेखनीय रूप से वृद्धि करके और PPO के मिनी-बैच पुनरावृत्तियों के बजाय कई युगों में पूर्ण-बैच अपडेट का उपयोग करके प्रशिक्षण डेटा की चौड़ाई का विस्तार करने की एक विधि प्रस्तुत करते हैं। अंत में, हम DARS-B का प्रस्ताव करते हैं

Takeaways, Limitations

•

Takeaways:

◦

जीआरपीओ एल्गोरिथम में गहराई और चौड़ाई का महत्व Limitations में प्रकट होता है।

◦

DARS तकनीक के माध्यम से RLVR के अनुमान प्रदर्शन में सुधार करना, जिससे कठिन समस्याओं के अन्वेषण में वृद्धि होती है।

◦

बड़े बैच आकार का उपयोग करके चौड़ाई विस्तार के माध्यम से अतिरिक्त प्रदर्शन सुधार।

◦

DARS-B गहराई और चौड़ाई में एक साथ सुधार करता है, जिससे Pass@K और Pass@1 दोनों का प्रदर्शन बेहतर होता है।

◦

प्रयोगात्मक रूप से प्रदर्शित किया गया कि आरएलवीआर में गहराई और चौड़ाई स्वतंत्र रूप से कार्य करती हैं।

•

Limitations:

◦

प्रस्तावित विधि की प्रभावशीलता विशिष्ट आरएलवीआर सेटिंग्स और डेटासेट तक सीमित हो सकती है।

◦

बड़े बैच आकार का उपयोग करने के कारण कम्प्यूटेशनल लागत में वृद्धि।

◦

अधिक विविध समस्या प्रकारों और डेटासेट पर अतिरिक्त प्रयोगों की आवश्यकता है।

पीडीएफ देखें

Made with Slashpage