दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

आत्म-प्रश्न भाषा मॉडल

जोखिम से परे: एआई प्रणालियों के सामाजिक प्रभाव का आकलन करने के लिए एक प्रोटो-फ्रेमवर्क

डीप न्यूरल नेटवर्क के साथ पर्यवेक्षित गतिशील आयाम न्यूनीकरण

इमोस्टीयर-टीटीएस: सक्रियण स्टीयरिंग के माध्यम से सूक्ष्म और प्रशिक्षण-मुक्त भावना-नियंत्रण योग्य टेक्स्ट-टू-स्पीच

एलएलएम का दिल पत्थर का होता है: बड़े तर्क मॉडल की कोमल सोच क्षमता का रहस्य उजागर करना

विनियमन के अंतर्गत औद्योगिक एलएलएम-आधारित कोड अनुकूलन: एजेंटों का मिश्रण दृष्टिकोण

कम-सटीक पुनर्प्राप्ति के लिए विश्वसनीय मूल्यांकन प्रोटोकॉल

लैंडसैट30-एयू: ऑस्ट्रेलियाई लैंडसैट इमेजरी के लिए एक विज़न-लैंग्वेज डेटासेट

रेपो डीप सर्च के लिए टूल-एकीकृत सुदृढीकरण सीखना

काउकर: वर्गीकरण समय श्रृंखला आधार मॉडल को केवल सिंथेटिक डेटा पर ही पूर्व-प्रशिक्षित किया जा सकता है

दृष्टि-भाषा संरेखण के लिए बड़े भाषा मॉडल के साथ संदर्भ-अनुकूली बहु-प्रॉम्प्ट एम्बेडिंग

डीएमएससी: समय श्रृंखला पूर्वानुमान के लिए गतिशील बहु-स्तरीय समन्वय ढांचा

HyCodePolicy: एम्बेडेड एजेंटों में मल्टीमॉडल मॉनिटरिंग और निर्णय के लिए हाइब्रिड भाषा नियंत्रक

Pinterest विज्ञापनों के लिए ऑनसाइट-ऑफसाइट ग्राफ़ के माध्यम से इकाई प्रतिनिधित्व सीखना

संवादात्मक अनुशंसा प्रणालियों में उपयोगकर्ता अनुभव का मूल्यांकन: शास्त्रीय और एलएलएम-संचालित दृष्टिकोणों में एक व्यवस्थित समीक्षा

RAW छवियों में वस्तु पहचान के लिए स्थानिक-आवृत्ति जागरूकता

अनुकूलन-आधारित प्रदर्शनों का उपयोग करके बल और दृष्टि प्रतिक्रिया के साथ पिवोटिंग हेरफेर सीखना

एनसीसीआर: तंत्रिका नेटवर्क और प्रतिकूल उदाहरणों की मजबूती का मूल्यांकन करना

ChartM$^3$: मल्टीमॉडल निर्देशों के साथ बेंचमार्किंग चार्ट संपादन

उलझाव से संरेखण तक: अप्रशिक्षित समय श्रृंखला डोमेन अनुकूलन के लिए प्रतिनिधित्व स्थान अपघटन

इकोट्रांसफॉर्मर: बिना गुणन के ध्यान

बॉब की कंफ़ेटी: संगीत और वीडियो निर्माण में ध्वन्यात्मक स्मरण के हमले

एसडीबेंच: स्पीकर डायराइजेशन के लिए एक व्यापक बेंचमार्क सूट

वास्तविक बहुविध संदर्भ-आधारित शिक्षण में दृश्य संदर्भ पर ध्यान देने की आवश्यकता होती है

गेज प्रवाह मॉडल

भारित प्रतिक्रिया सहसंबंध के साथ शून्य-शॉट तंत्रिका वास्तुकला खोज

एलएलएम का अंधकारमय पक्ष: कंप्यूटर पर पूर्ण कब्ज़ा करने के लिए एजेंट-आधारित हमले

कैवगन: एलएलएम के आंतरिक प्रतिनिधित्व पर जनरेटिव प्रतिकूल हमलों के माध्यम से जेलब्रेक और रक्षा को एकीकृत करना

वोट: ट्रैजेक्टरी एनसेंबल वोटिंग के साथ विज़न-भाषा-क्रिया अनुकूलन

घने रिट्रीवर्स के रूप में विशिष्ट एलएलएम का तुलनात्मक अध्ययन

बड़े भाषा मॉडल का उपयोग करके संकेत पहचान अस्पष्टता

अनमिक्स-NeRF: स्पेक्ट्रल अनमिक्सिंग का न्यूरल रेडियंस फ़ील्ड्स से मिलन

विचार एंकर: एलएलएम तर्क के कौन से चरण महत्वपूर्ण हैं?

यूआईट्रॉन-स्पीच: वाक् निर्देशों पर आधारित स्वचालित GUI एजेंटों की ओर

15,500 सेकंड: एफिशिएंटनेट और लाइटवेट फाइन-ट्यूनिंग का उपयोग करके लीन यूएवी वर्गीकरण

एटमोसएमजे: वर्ष पैमाने से परे एआई मौसम पूर्वानुमान के लिए गेटिंग तंत्र पर पुनर्विचार

बड़े भाषा मॉडल में मतिभ्रम नियंत्रण की मौलिक असंभवता पर

अगली पीढ़ी के विस्तारित वास्तविकता प्रणालियों के लिए बहु-मोडल बहु-कार्य संघीय आधार मॉडल: AR/VR/MR में गोपनीयता-संरक्षण वितरित बुद्धिमत्ता की ओर

केवल-पाठ्य तर्क शून्य-शॉट बहुविध मूल्यांकनकर्ताओं को मुक्त करता है

कैन: एलएलएम का अपहरण - दुर्भावनापूर्ण सिस्टम प्रॉम्प्ट के माध्यम से मानव वार्तालाप

कम समझाएँ, अधिक समझें: वैयक्तिकृत पैरामीटर-कुशल फ़ाइन-ट्यूनिंग के माध्यम से शब्दजाल का पता लगाना

क्या जीवित है? जीवन की परिभाषा पर विविध विचारों का एक मेटा-विश्लेषण

ब्लैक-बॉक्स कॉम्बिनेटोरियल ऑप्टिमाइज़ेशन के लिए एक जेनरेटिव न्यूरल एनीलर

ग्रिल: ऑटोएनकोडर्स पर प्रतिकूल हमलों को बढ़ाने के लिए खराब स्थिति वाली परतों में ग्रेडिएंट सिग्नल की बहाली

कॉस्टफ़िल्टर-एडी: मिलान लागत फ़िल्टरिंग के माध्यम से विसंगति का पता लगाना बढ़ाना

Mj\"olnir: वैश्विक बिजली चमक घनत्व के लिए एक गहन शिक्षण पैरामीटरीकरण ढाँचा

आरजीबी-इवेंट आधारित पैदल यात्री विशेषता पहचान: एक बेंचमार्क डेटासेट और एक असममित आरडब्ल्यूकेवी फ्यूजन फ्रेमवर्क

प्रोटोईसीजीनेट: कंट्रास्टिव लर्निंग के साथ मल्टी-लेबल ईसीजी वर्गीकरण के लिए केस-आधारित व्याख्यात्मक गहन लर्निंग

वाइड-एंगल छवियों से परे: अप्रशिक्षित स्थानिक-समय अनुकूलन के माध्यम से संरचना-से-विस्तार वीडियो पोर्ट्रेट सुधार

CITRAS: समय श्रृंखला पूर्वानुमान के लिए सहचर-सूचित ट्रांसफार्मर

रूब्रिक ही आपकी ज़रूरत है: प्रश्न-विशिष्ट रूब्रिक के साथ एलएलएम-आधारित कोड मूल्यांकन को बेहतर बनाना

पिक्सेल से प्लानर पुशिंग के लिए प्रसार नीतियों के सिम-और-रियल सह-प्रशिक्षण का अनुभवजन्य विश्लेषण

सिंपलआरएल-ज़ू: खुले आधार मॉडल के लिए शून्य सुदृढीकरण सीखने की जांच और नियंत्रण

NuPlanQA: बहु-मोडल बड़े भाषा मॉडल में बहु-दृश्य ड्राइविंग दृश्य समझ के लिए एक बड़े पैमाने का डेटासेट और बेंचमार्क

आइटम प्रतिक्रिया सिद्धांत में कठिनाई और भेदभाव पर आइटम-लेखन दोषों का प्रभाव

आवर्धक कांच के माध्यम से: मतिभ्रम-मुक्त वीएलएम डिकोडिंग के लिए अनुकूली बोध आवर्धन

सर्च-आर1: एलएलएम को तर्क करने और सर्च इंजनों का लाभ उठाने के लिए प्रशिक्षण देना, सुदृढीकरण सीखने के साथ

लक्ष्य-उन्मुख अर्थ संचार के लिए पुल-आधारित क्वेरी शेड्यूलिंग

सख्त निचली सीमाओं के साथ बहु-एजेंट पथ खोज में फोकल खोज को तेज करना

रेलगन: विभिन्न वातावरणों और कार्यों में बहु-एजेंट पथ खोज के लिए एक एकीकृत कन्वोल्यूशनल नीति

अल्ट्राएसटीएफ: बड़े पैमाने पर स्थानिक-कालिक पूर्वानुमान के लिए अल्ट्रा-कॉम्पैक्ट मॉडल

PTQ1.61: बड़े भाषा मॉडल के लिए अत्यंत निम्न-बिट पोस्ट-ट्रेनिंग क्वांटिज़ेशन विधियों की वास्तविक सीमा को आगे बढ़ाएँ

अनुकूली जोखिम अनुमान के लिए इलेक्ट्रॉनिक मेडिकल रिकॉर्ड का आधारभूत मॉडल

टूल-संवर्धित एलएलएम के लिए टूल अनलर्निंग

छवियों के बिना दृष्टि: एकल संपीड़न माप से अंत-से-अंत कंप्यूटर दृष्टि

एक सॉफ्टवेयर इंजीनियर जेनरेटिव मॉडल कैसे तैयार करता है? स्थिर प्रसार पूर्वाग्रह पर एक केस स्टडी

3DTTNet: ऑफ-रोड वातावरण के लिए मल्टीमॉडल फ्यूजन-आधारित 3D ट्रैवर्सेबल टेरेन मॉडलिंग

DOGR: बहुमुखी दृश्य दस्तावेज़ ग्राउंडिंग और रेफ़रिंग की ओर

विज़न लैंग्वेज मॉडल फीडबैक से वास्तविक दुनिया में ऑफ़लाइन सुदृढीकरण सीखना

मॉडल की मजबूती का कारण-कार्य-संचालित ऑडिट

ऑटैलिक: संदर्भ में एंटी-ऑटिस्टिक एबलिस्ट भाषा के लिए एक डेटासेट

एडाप्टर पुनर्प्राप्ति से परे: विरल कार्य प्रक्षेपण के माध्यम से अव्यक्त ज्यामिति-संरक्षण संरचना

Pyhgf: पूर्वानुमानित कोडिंग के लिए एक तंत्रिका नेटवर्क लाइब्रेरी

एआई के संदर्भ में मानवीय पूर्वाग्रह: एआई द्वारा उत्पन्न कहे जाने वाले पाठ के प्रति मानवीय निर्णय की जाँच

AVG-LLaVA: अनुकूली दृश्य ग्रैन्युलैरिटी वाला एक कुशल बड़ा मल्टीमॉडल मॉडल

पार्स ट्रीज़ गाइडेड एलएलएम प्रॉम्प्ट कम्प्रेशन

एक मॉडल, कोई भी संयोजक प्रश्न: अपूर्ण ज्ञान ग्राफ़ पर प्रश्नों के उत्तर देने के लिए ग्राफ़ तंत्रिका नेटवर्क

कनेक्टेड और स्वचालित वाहनों के बहु-एजेंट सहकारी निर्णय लेने के लिए एक मूल्य आधारित समानांतर अद्यतन MCTS विधि

भाषा मॉडल में निष्पक्षता की परिभाषाएँ समझाई गईं

सिटीलाइट: समन्वित शहर-स्तरीय यातायात सिग्नल नियंत्रण के लिए एक पड़ोस-समावेशी सार्वभौमिक मॉडल

समय साक्ष्य संलयन नेटवर्क: दीर्घकालिक समय श्रृंखला पूर्वानुमान में बहु-स्रोत दृष्टिकोण

इवेंट कैमरों के साथ दीर्घकालिक दृश्य वस्तु ट्रैकिंग: एक एसोसिएटिव मेमोरी संवर्धित ट्रैकर और एक बेंचमार्क डेटासेट

हल्क: मानव-केंद्रित कार्यों के लिए एक सार्वभौमिक ज्ञान अनुवादक

क्लस्टर धारणा से ग्राफ कन्वोल्यूशन तक: ग्राफ-आधारित अर्ध-पर्यवेक्षित शिक्षण पर पुनर्विचार

एक एम्बेडेड हार्डवेयर प्लेटफ़ॉर्म पर पर्यावरणीय ध्वनि वर्गीकरण

यूएमएल अनुक्रम आरेखों पर आधारित औद्योगिक कोड निर्माण के लिए डेटा निर्भरता अनुमान

InqEduAgent: अनुकूली AI लर्निंग, गॉसियन प्रोसेस ऑग्मेंटेशन के साथ साझेदारी करता है

एसई-एजेंट: एलएलएम-आधारित एजेंटों के साथ बहु-चरणीय तर्क में आत्म-विकास प्रक्षेप पथ अनुकूलन

आरएल-प्लस: हाइब्रिड-पॉलिसी ऑप्टिमाइज़ेशन के साथ सुदृढीकरण सीखने में एलएलएम की क्षमता सीमा के पतन का मुकाबला करना

उच्च गेज प्रवाह मॉडल

सोचें कि कैसे सोचें: बड़े तर्क मॉडल में स्वायत्त कठिनाई संज्ञान के साथ अति-विचार को कम करना

आईएस-बेंच: दैनिक घरेलू कार्यों में वीएलएम-चालित सन्निहित एजेंटों की इंटरैक्टिव सुरक्षा का मूल्यांकन

एसएलआर: स्केलेबल लॉजिकल रीजनिंग के लिए स्वचालित संश्लेषण

एसडब्ल्यूई-बेंच भ्रम: जब अत्याधुनिक एलएलएम तर्क के बजाय याद करते हैं

अपोलो: उन्नत औपचारिक तर्क के लिए स्वचालित एलएलएम और लीन सहयोग

प्रतिकूल सहकारी युक्तिकरण: स्वच्छ डेटासेट में भी नकली सहसंबंधों का जोखिम

बहुविधीय वृहद भाषा मॉडलों के लिए अनुकूली रूप से अनुमान लगाना सीखना

व्यर्थ नियमों की अनदेखी करके कुशल नियम प्रेरण

एजेंट ने वह निर्णय क्यों लिया: सुदृढीकरण अधिगम के लिए विरोधाभासी स्पष्टीकरण अधिगम

पता लगाने की सीमा का मूल्यांकन: सुपर-रेज़ोल्यूशन अल्ट्रासाउंड स्थानीयकरण माइक्रोस्कोपी पर झूठे सकारात्मक और नकारात्मक का प्रभाव

आरएल-प्लस: हाइब्रिड-पॉलिसी ऑप्टिमाइज़ेशन के साथ सुदृढीकरण सीखने में एलएलएम की क्षमता सीमा के पतन का मुकाबला करना

Created by

Haebom

लेखक

यिहोंग डोंग, ज़ू जियांग, योंगडिंग ताओ, हुआन्यू लियू, केची झांग, लिली मौ, रोंगयु काओ, यिंगवेई मा, जुए चेन, बिनहुआ ली, ज़ी जिन, फ़ेई हुआंग, योंगबिन ली, जीई ली

रूपरेखा

यह पत्र Limitations की ओर इशारा करता है, जो सुदृढीकरण सीखने-आधारित सत्यापन योग्य पुरस्कारों का उपयोग करके बड़े पैमाने पर भाषा मॉडल (एलएलएम) की अनुमान क्षमता में सुधार करने पर एक शोध पत्र है, और इस सीमा को पार करने के लिए एक उपन्यास हाइब्रिड नीति अनुकूलन तकनीक आरएल-प्लस का प्रस्ताव करता है। आरएल-प्लस आंतरिक अन्वेषण और बाहरी डेटा रणनीतियों का लाभ उठाकर, मौजूदा आरएलवीआर विधियों की एक सीमा, क्षमता सीमा पतन की समस्या को संबोधित करता है, जिससे बढ़ी हुई अनुमान क्षमता प्राप्त होती है। इसके मुख्य घटकों में बहु महत्व नमूनाकरण (एमआईएस) और एक अन्वेषण-आधारित लाभ फ़ंक्शन (ईबीए) शामिल है जो बाहरी डेटा के वितरण बेमेल समस्या और अज्ञात अनुमान पथों की खोज की समस्या को हल करता है। प्रायोगिक परिणाम दिखाते हैं कि आरएल-प्लस कई गणितीय अनुमान बेंचमार्क और आउट-ऑफ-डिस्ट्रीब्यूशन अनुमान कार्यों पर अत्याधुनिक प्रदर्शन प्राप्त करता है