दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

आत्म-प्रश्न भाषा मॉडल

जोखिम से परे: एआई प्रणालियों के सामाजिक प्रभाव का आकलन करने के लिए एक प्रोटो-फ्रेमवर्क

डीप न्यूरल नेटवर्क के साथ पर्यवेक्षित गतिशील आयाम न्यूनीकरण

इमोस्टीयर-टीटीएस: सक्रियण स्टीयरिंग के माध्यम से सूक्ष्म और प्रशिक्षण-मुक्त भावना-नियंत्रण योग्य टेक्स्ट-टू-स्पीच

एलएलएम का दिल पत्थर का होता है: बड़े तर्क मॉडल की कोमल सोच क्षमता का रहस्य उजागर करना

विनियमन के अंतर्गत औद्योगिक एलएलएम-आधारित कोड अनुकूलन: एजेंटों का मिश्रण दृष्टिकोण

कम-सटीक पुनर्प्राप्ति के लिए विश्वसनीय मूल्यांकन प्रोटोकॉल

लैंडसैट30-एयू: ऑस्ट्रेलियाई लैंडसैट इमेजरी के लिए एक विज़न-लैंग्वेज डेटासेट

रेपो डीप सर्च के लिए टूल-एकीकृत सुदृढीकरण सीखना

काउकर: वर्गीकरण समय श्रृंखला आधार मॉडल को केवल सिंथेटिक डेटा पर ही पूर्व-प्रशिक्षित किया जा सकता है

दृष्टि-भाषा संरेखण के लिए बड़े भाषा मॉडल के साथ संदर्भ-अनुकूली बहु-प्रॉम्प्ट एम्बेडिंग

डीएमएससी: समय श्रृंखला पूर्वानुमान के लिए गतिशील बहु-स्तरीय समन्वय ढांचा

HyCodePolicy: एम्बेडेड एजेंटों में मल्टीमॉडल मॉनिटरिंग और निर्णय के लिए हाइब्रिड भाषा नियंत्रक

Pinterest विज्ञापनों के लिए ऑनसाइट-ऑफसाइट ग्राफ़ के माध्यम से इकाई प्रतिनिधित्व सीखना

संवादात्मक अनुशंसा प्रणालियों में उपयोगकर्ता अनुभव का मूल्यांकन: शास्त्रीय और एलएलएम-संचालित दृष्टिकोणों में एक व्यवस्थित समीक्षा

RAW छवियों में वस्तु पहचान के लिए स्थानिक-आवृत्ति जागरूकता

अनुकूलन-आधारित प्रदर्शनों का उपयोग करके बल और दृष्टि प्रतिक्रिया के साथ पिवोटिंग हेरफेर सीखना

एनसीसीआर: तंत्रिका नेटवर्क और प्रतिकूल उदाहरणों की मजबूती का मूल्यांकन करना

ChartM$^3$: मल्टीमॉडल निर्देशों के साथ बेंचमार्किंग चार्ट संपादन

उलझाव से संरेखण तक: अप्रशिक्षित समय श्रृंखला डोमेन अनुकूलन के लिए प्रतिनिधित्व स्थान अपघटन

इकोट्रांसफॉर्मर: बिना गुणन के ध्यान

बॉब की कंफ़ेटी: संगीत और वीडियो निर्माण में ध्वन्यात्मक स्मरण के हमले

एसडीबेंच: स्पीकर डायराइजेशन के लिए एक व्यापक बेंचमार्क सूट

वास्तविक बहुविध संदर्भ-आधारित शिक्षण में दृश्य संदर्भ पर ध्यान देने की आवश्यकता होती है

गेज प्रवाह मॉडल

भारित प्रतिक्रिया सहसंबंध के साथ शून्य-शॉट तंत्रिका वास्तुकला खोज

एलएलएम का अंधकारमय पक्ष: कंप्यूटर पर पूर्ण कब्ज़ा करने के लिए एजेंट-आधारित हमले

कैवगन: एलएलएम के आंतरिक प्रतिनिधित्व पर जनरेटिव प्रतिकूल हमलों के माध्यम से जेलब्रेक और रक्षा को एकीकृत करना

वोट: ट्रैजेक्टरी एनसेंबल वोटिंग के साथ विज़न-भाषा-क्रिया अनुकूलन

घने रिट्रीवर्स के रूप में विशिष्ट एलएलएम का तुलनात्मक अध्ययन

बड़े भाषा मॉडल का उपयोग करके संकेत पहचान अस्पष्टता

अनमिक्स-NeRF: स्पेक्ट्रल अनमिक्सिंग का न्यूरल रेडियंस फ़ील्ड्स से मिलन

विचार एंकर: एलएलएम तर्क के कौन से चरण महत्वपूर्ण हैं?

यूआईट्रॉन-स्पीच: वाक् निर्देशों पर आधारित स्वचालित GUI एजेंटों की ओर

15,500 सेकंड: एफिशिएंटनेट और लाइटवेट फाइन-ट्यूनिंग का उपयोग करके लीन यूएवी वर्गीकरण

एटमोसएमजे: वर्ष पैमाने से परे एआई मौसम पूर्वानुमान के लिए गेटिंग तंत्र पर पुनर्विचार

बड़े भाषा मॉडल में मतिभ्रम नियंत्रण की मौलिक असंभवता पर

अगली पीढ़ी के विस्तारित वास्तविकता प्रणालियों के लिए बहु-मोडल बहु-कार्य संघीय आधार मॉडल: AR/VR/MR में गोपनीयता-संरक्षण वितरित बुद्धिमत्ता की ओर

केवल-पाठ्य तर्क शून्य-शॉट बहुविध मूल्यांकनकर्ताओं को मुक्त करता है

कैन: एलएलएम का अपहरण - दुर्भावनापूर्ण सिस्टम प्रॉम्प्ट के माध्यम से मानव वार्तालाप

कम समझाएँ, अधिक समझें: वैयक्तिकृत पैरामीटर-कुशल फ़ाइन-ट्यूनिंग के माध्यम से शब्दजाल का पता लगाना

क्या जीवित है? जीवन की परिभाषा पर विविध विचारों का एक मेटा-विश्लेषण

ब्लैक-बॉक्स कॉम्बिनेटोरियल ऑप्टिमाइज़ेशन के लिए एक जेनरेटिव न्यूरल एनीलर

ग्रिल: ऑटोएनकोडर्स पर प्रतिकूल हमलों को बढ़ाने के लिए खराब स्थिति वाली परतों में ग्रेडिएंट सिग्नल की बहाली

कॉस्टफ़िल्टर-एडी: मिलान लागत फ़िल्टरिंग के माध्यम से विसंगति का पता लगाना बढ़ाना

Mj\"olnir: वैश्विक बिजली चमक घनत्व के लिए एक गहन शिक्षण पैरामीटरीकरण ढाँचा

आरजीबी-इवेंट आधारित पैदल यात्री विशेषता पहचान: एक बेंचमार्क डेटासेट और एक असममित आरडब्ल्यूकेवी फ्यूजन फ्रेमवर्क

प्रोटोईसीजीनेट: कंट्रास्टिव लर्निंग के साथ मल्टी-लेबल ईसीजी वर्गीकरण के लिए केस-आधारित व्याख्यात्मक गहन लर्निंग

वाइड-एंगल छवियों से परे: अप्रशिक्षित स्थानिक-समय अनुकूलन के माध्यम से संरचना-से-विस्तार वीडियो पोर्ट्रेट सुधार

CITRAS: समय श्रृंखला पूर्वानुमान के लिए सहचर-सूचित ट्रांसफार्मर

रूब्रिक ही आपकी ज़रूरत है: प्रश्न-विशिष्ट रूब्रिक के साथ एलएलएम-आधारित कोड मूल्यांकन को बेहतर बनाना

पिक्सेल से प्लानर पुशिंग के लिए प्रसार नीतियों के सिम-और-रियल सह-प्रशिक्षण का अनुभवजन्य विश्लेषण

सिंपलआरएल-ज़ू: खुले आधार मॉडल के लिए शून्य सुदृढीकरण सीखने की जांच और नियंत्रण

NuPlanQA: बहु-मोडल बड़े भाषा मॉडल में बहु-दृश्य ड्राइविंग दृश्य समझ के लिए एक बड़े पैमाने का डेटासेट और बेंचमार्क

आइटम प्रतिक्रिया सिद्धांत में कठिनाई और भेदभाव पर आइटम-लेखन दोषों का प्रभाव

आवर्धक कांच के माध्यम से: मतिभ्रम-मुक्त वीएलएम डिकोडिंग के लिए अनुकूली बोध आवर्धन

सर्च-आर1: एलएलएम को तर्क करने और सर्च इंजनों का लाभ उठाने के लिए प्रशिक्षण देना, सुदृढीकरण सीखने के साथ

लक्ष्य-उन्मुख अर्थ संचार के लिए पुल-आधारित क्वेरी शेड्यूलिंग

सख्त निचली सीमाओं के साथ बहु-एजेंट पथ खोज में फोकल खोज को तेज करना

रेलगन: विभिन्न वातावरणों और कार्यों में बहु-एजेंट पथ खोज के लिए एक एकीकृत कन्वोल्यूशनल नीति

अल्ट्राएसटीएफ: बड़े पैमाने पर स्थानिक-कालिक पूर्वानुमान के लिए अल्ट्रा-कॉम्पैक्ट मॉडल

PTQ1.61: बड़े भाषा मॉडल के लिए अत्यंत निम्न-बिट पोस्ट-ट्रेनिंग क्वांटिज़ेशन विधियों की वास्तविक सीमा को आगे बढ़ाएँ

अनुकूली जोखिम अनुमान के लिए इलेक्ट्रॉनिक मेडिकल रिकॉर्ड का आधारभूत मॉडल

टूल-संवर्धित एलएलएम के लिए टूल अनलर्निंग

छवियों के बिना दृष्टि: एकल संपीड़न माप से अंत-से-अंत कंप्यूटर दृष्टि

एक सॉफ्टवेयर इंजीनियर जेनरेटिव मॉडल कैसे तैयार करता है? स्थिर प्रसार पूर्वाग्रह पर एक केस स्टडी

3DTTNet: ऑफ-रोड वातावरण के लिए मल्टीमॉडल फ्यूजन-आधारित 3D ट्रैवर्सेबल टेरेन मॉडलिंग

DOGR: बहुमुखी दृश्य दस्तावेज़ ग्राउंडिंग और रेफ़रिंग की ओर

विज़न लैंग्वेज मॉडल फीडबैक से वास्तविक दुनिया में ऑफ़लाइन सुदृढीकरण सीखना

मॉडल की मजबूती का कारण-कार्य-संचालित ऑडिट

ऑटैलिक: संदर्भ में एंटी-ऑटिस्टिक एबलिस्ट भाषा के लिए एक डेटासेट

एडाप्टर पुनर्प्राप्ति से परे: विरल कार्य प्रक्षेपण के माध्यम से अव्यक्त ज्यामिति-संरक्षण संरचना

Pyhgf: पूर्वानुमानित कोडिंग के लिए एक तंत्रिका नेटवर्क लाइब्रेरी

एआई के संदर्भ में मानवीय पूर्वाग्रह: एआई द्वारा उत्पन्न कहे जाने वाले पाठ के प्रति मानवीय निर्णय की जाँच

AVG-LLaVA: अनुकूली दृश्य ग्रैन्युलैरिटी वाला एक कुशल बड़ा मल्टीमॉडल मॉडल

पार्स ट्रीज़ गाइडेड एलएलएम प्रॉम्प्ट कम्प्रेशन

एक मॉडल, कोई भी संयोजक प्रश्न: अपूर्ण ज्ञान ग्राफ़ पर प्रश्नों के उत्तर देने के लिए ग्राफ़ तंत्रिका नेटवर्क

कनेक्टेड और स्वचालित वाहनों के बहु-एजेंट सहकारी निर्णय लेने के लिए एक मूल्य आधारित समानांतर अद्यतन MCTS विधि

भाषा मॉडल में निष्पक्षता की परिभाषाएँ समझाई गईं

सिटीलाइट: समन्वित शहर-स्तरीय यातायात सिग्नल नियंत्रण के लिए एक पड़ोस-समावेशी सार्वभौमिक मॉडल

समय साक्ष्य संलयन नेटवर्क: दीर्घकालिक समय श्रृंखला पूर्वानुमान में बहु-स्रोत दृष्टिकोण

इवेंट कैमरों के साथ दीर्घकालिक दृश्य वस्तु ट्रैकिंग: एक एसोसिएटिव मेमोरी संवर्धित ट्रैकर और एक बेंचमार्क डेटासेट

हल्क: मानव-केंद्रित कार्यों के लिए एक सार्वभौमिक ज्ञान अनुवादक

क्लस्टर धारणा से ग्राफ कन्वोल्यूशन तक: ग्राफ-आधारित अर्ध-पर्यवेक्षित शिक्षण पर पुनर्विचार

एक एम्बेडेड हार्डवेयर प्लेटफ़ॉर्म पर पर्यावरणीय ध्वनि वर्गीकरण

यूएमएल अनुक्रम आरेखों पर आधारित औद्योगिक कोड निर्माण के लिए डेटा निर्भरता अनुमान

InqEduAgent: अनुकूली AI लर्निंग, गॉसियन प्रोसेस ऑग्मेंटेशन के साथ साझेदारी करता है

एसई-एजेंट: एलएलएम-आधारित एजेंटों के साथ बहु-चरणीय तर्क में आत्म-विकास प्रक्षेप पथ अनुकूलन

आरएल-प्लस: हाइब्रिड-पॉलिसी ऑप्टिमाइज़ेशन के साथ सुदृढीकरण सीखने में एलएलएम की क्षमता सीमा के पतन का मुकाबला करना

उच्च गेज प्रवाह मॉडल

सोचें कि कैसे सोचें: बड़े तर्क मॉडल में स्वायत्त कठिनाई संज्ञान के साथ अति-विचार को कम करना

आईएस-बेंच: दैनिक घरेलू कार्यों में वीएलएम-चालित सन्निहित एजेंटों की इंटरैक्टिव सुरक्षा का मूल्यांकन

एसएलआर: स्केलेबल लॉजिकल रीजनिंग के लिए स्वचालित संश्लेषण

एसडब्ल्यूई-बेंच भ्रम: जब अत्याधुनिक एलएलएम तर्क के बजाय याद करते हैं

अपोलो: उन्नत औपचारिक तर्क के लिए स्वचालित एलएलएम और लीन सहयोग

प्रतिकूल सहकारी युक्तिकरण: स्वच्छ डेटासेट में भी नकली सहसंबंधों का जोखिम

बहुविधीय वृहद भाषा मॉडलों के लिए अनुकूली रूप से अनुमान लगाना सीखना

व्यर्थ नियमों की अनदेखी करके कुशल नियम प्रेरण

एजेंट ने वह निर्णय क्यों लिया: सुदृढीकरण अधिगम के लिए विरोधाभासी स्पष्टीकरण अधिगम

पता लगाने की सीमा का मूल्यांकन: सुपर-रेज़ोल्यूशन अल्ट्रासाउंड स्थानीयकरण माइक्रोस्कोपी पर झूठे सकारात्मक और नकारात्मक का प्रभाव

तर्क या स्मरण? डेटा संदूषण के कारण सुदृढीकरण सीखने के अविश्वसनीय परिणाम

Created by

Haebom

लेखक

मिंगकी वू, झिहाओ झांग, क़ियाओले डोंग, झिहेंग शी, जून झाओ, सेन्जी जिन, ज़ियाओरान फैन, युहाओ झोउ, हुइजी लव, मिंग झांग, यानवेई फू, किन लियू, सोंगयांग झांग, क्यूई झांग

रूपरेखा

यह शोधपत्र सुदृढीकरण अधिगम (RL) का उपयोग करके बड़े पैमाने के भाषा मॉडलों (LLM) के अनुमान प्रदर्शन को बेहतर बनाने पर शोध की विश्वसनीयता पर चर्चा करता है। हालाँकि पिछले शोधों ने Qwen2.5 मॉडल परिवार में यादृच्छिक या गलत पुरस्कार संकेतों के साथ भी प्रदर्शन में सुधार प्रदर्शित किया है, हम बताते हैं कि MATH-500, AMC और AIME जैसे बेंचमार्क में डेटा संदूषण की संभावना के कारण यह अविश्वसनीय हो सकता है। इसलिए, हम एक नया डेटासेट, RandomCalculation प्रस्तुत करते हैं, जो मनमाने लंबाई और कठिनाई के पूरी तरह से स्वच्छ अंकगणितीय प्रश्न उत्पन्न करता है। इस डेटासेट का उपयोग करके, हम प्रदर्शित करते हैं कि केवल सटीक पुरस्कार संकेत ही मॉडलों के गणितीय अनुमान प्रदर्शन को बेहतर बनाते हैं। हम MATH-500 और RandomCalculation बेंचमार्क के बीच देखे गए प्रदर्शन अंतरों का गहन विश्लेषण भी करते हैं, और प्रस्ताव करते हैं कि भविष्य के शोध में अदूषित बेंचमार्क का उपयोग किया जाना चाहिए और मॉडल परिवारों की एक विस्तृत श्रृंखला का परीक्षण किया जाना चाहिए।

Takeaways, Limitations

•

Takeaways:

◦

सुदृढीकरण सीखने का उपयोग करके एलएलएम की अनुमान क्षमता में सुधार करने पर किए गए एक अध्ययन से डेटा संदूषण की गंभीरता का पता चला।

◦

हम डेटा संदूषण के बिना एक नया बेंचमार्क रैंडमकैलकुलेशन प्रस्तुत करते हैं।

◦

हम यह प्रदर्शित करते हैं कि केवल सटीक पुरस्कार संकेत ही LLM की गणितीय तर्क क्षमता को बढ़ाते हैं।

◦

भावी अनुसंधान के लिए एक विश्वसनीय मूल्यांकन पद्धति प्रस्तुत करना (अदूषित बेंचमार्क का उपयोग करना और विविध मॉडल परिवारों का परीक्षण करना)।

•

Limitations:

◦

रैंडमकैलकुलेशन डेटासेट एक विशिष्ट डोमेन (अंकगणितीय समस्याओं) तक सीमित है।

◦

विश्लेषण में प्रयुक्त मॉडल Qwen2.5 श्रृंखला पर केंद्रित था, जिसके सामान्यीकरण पर आगे अनुसंधान की आवश्यकता थी।

◦

अन्य प्रकार के पुरस्कार संकेतों या सुदृढीकरण सीखने के तरीकों के लिए सामान्यीकरण का निर्धारण करने के लिए आगे अनुसंधान की आवश्यकता है।

पीडीएफ देखें

Made with Slashpage