दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

आत्म-प्रश्न भाषा मॉडल

जोखिम से परे: एआई प्रणालियों के सामाजिक प्रभाव का आकलन करने के लिए एक प्रोटो-फ्रेमवर्क

डीप न्यूरल नेटवर्क के साथ पर्यवेक्षित गतिशील आयाम न्यूनीकरण

इमोस्टीयर-टीटीएस: सक्रियण स्टीयरिंग के माध्यम से सूक्ष्म और प्रशिक्षण-मुक्त भावना-नियंत्रण योग्य टेक्स्ट-टू-स्पीच

एलएलएम का दिल पत्थर का होता है: बड़े तर्क मॉडल की कोमल सोच क्षमता का रहस्य उजागर करना

विनियमन के अंतर्गत औद्योगिक एलएलएम-आधारित कोड अनुकूलन: एजेंटों का मिश्रण दृष्टिकोण

कम-सटीक पुनर्प्राप्ति के लिए विश्वसनीय मूल्यांकन प्रोटोकॉल

लैंडसैट30-एयू: ऑस्ट्रेलियाई लैंडसैट इमेजरी के लिए एक विज़न-लैंग्वेज डेटासेट

रेपो डीप सर्च के लिए टूल-एकीकृत सुदृढीकरण सीखना

काउकर: वर्गीकरण समय श्रृंखला आधार मॉडल को केवल सिंथेटिक डेटा पर ही पूर्व-प्रशिक्षित किया जा सकता है

दृष्टि-भाषा संरेखण के लिए बड़े भाषा मॉडल के साथ संदर्भ-अनुकूली बहु-प्रॉम्प्ट एम्बेडिंग

डीएमएससी: समय श्रृंखला पूर्वानुमान के लिए गतिशील बहु-स्तरीय समन्वय ढांचा

HyCodePolicy: एम्बेडेड एजेंटों में मल्टीमॉडल मॉनिटरिंग और निर्णय के लिए हाइब्रिड भाषा नियंत्रक

Pinterest विज्ञापनों के लिए ऑनसाइट-ऑफसाइट ग्राफ़ के माध्यम से इकाई प्रतिनिधित्व सीखना

संवादात्मक अनुशंसा प्रणालियों में उपयोगकर्ता अनुभव का मूल्यांकन: शास्त्रीय और एलएलएम-संचालित दृष्टिकोणों में एक व्यवस्थित समीक्षा

RAW छवियों में वस्तु पहचान के लिए स्थानिक-आवृत्ति जागरूकता

अनुकूलन-आधारित प्रदर्शनों का उपयोग करके बल और दृष्टि प्रतिक्रिया के साथ पिवोटिंग हेरफेर सीखना

एनसीसीआर: तंत्रिका नेटवर्क और प्रतिकूल उदाहरणों की मजबूती का मूल्यांकन करना

ChartM$^3$: मल्टीमॉडल निर्देशों के साथ बेंचमार्किंग चार्ट संपादन

उलझाव से संरेखण तक: अप्रशिक्षित समय श्रृंखला डोमेन अनुकूलन के लिए प्रतिनिधित्व स्थान अपघटन

इकोट्रांसफॉर्मर: बिना गुणन के ध्यान

बॉब की कंफ़ेटी: संगीत और वीडियो निर्माण में ध्वन्यात्मक स्मरण के हमले

एसडीबेंच: स्पीकर डायराइजेशन के लिए एक व्यापक बेंचमार्क सूट

वास्तविक बहुविध संदर्भ-आधारित शिक्षण में दृश्य संदर्भ पर ध्यान देने की आवश्यकता होती है

गेज प्रवाह मॉडल

भारित प्रतिक्रिया सहसंबंध के साथ शून्य-शॉट तंत्रिका वास्तुकला खोज

एलएलएम का अंधकारमय पक्ष: कंप्यूटर पर पूर्ण कब्ज़ा करने के लिए एजेंट-आधारित हमले

कैवगन: एलएलएम के आंतरिक प्रतिनिधित्व पर जनरेटिव प्रतिकूल हमलों के माध्यम से जेलब्रेक और रक्षा को एकीकृत करना

वोट: ट्रैजेक्टरी एनसेंबल वोटिंग के साथ विज़न-भाषा-क्रिया अनुकूलन

घने रिट्रीवर्स के रूप में विशिष्ट एलएलएम का तुलनात्मक अध्ययन

बड़े भाषा मॉडल का उपयोग करके संकेत पहचान अस्पष्टता

अनमिक्स-NeRF: स्पेक्ट्रल अनमिक्सिंग का न्यूरल रेडियंस फ़ील्ड्स से मिलन

विचार एंकर: एलएलएम तर्क के कौन से चरण महत्वपूर्ण हैं?

यूआईट्रॉन-स्पीच: वाक् निर्देशों पर आधारित स्वचालित GUI एजेंटों की ओर

15,500 सेकंड: एफिशिएंटनेट और लाइटवेट फाइन-ट्यूनिंग का उपयोग करके लीन यूएवी वर्गीकरण

एटमोसएमजे: वर्ष पैमाने से परे एआई मौसम पूर्वानुमान के लिए गेटिंग तंत्र पर पुनर्विचार

बड़े भाषा मॉडल में मतिभ्रम नियंत्रण की मौलिक असंभवता पर

अगली पीढ़ी के विस्तारित वास्तविकता प्रणालियों के लिए बहु-मोडल बहु-कार्य संघीय आधार मॉडल: AR/VR/MR में गोपनीयता-संरक्षण वितरित बुद्धिमत्ता की ओर

केवल-पाठ्य तर्क शून्य-शॉट बहुविध मूल्यांकनकर्ताओं को मुक्त करता है

कैन: एलएलएम का अपहरण - दुर्भावनापूर्ण सिस्टम प्रॉम्प्ट के माध्यम से मानव वार्तालाप

कम समझाएँ, अधिक समझें: वैयक्तिकृत पैरामीटर-कुशल फ़ाइन-ट्यूनिंग के माध्यम से शब्दजाल का पता लगाना

क्या जीवित है? जीवन की परिभाषा पर विविध विचारों का एक मेटा-विश्लेषण

ब्लैक-बॉक्स कॉम्बिनेटोरियल ऑप्टिमाइज़ेशन के लिए एक जेनरेटिव न्यूरल एनीलर

ग्रिल: ऑटोएनकोडर्स पर प्रतिकूल हमलों को बढ़ाने के लिए खराब स्थिति वाली परतों में ग्रेडिएंट सिग्नल की बहाली

कॉस्टफ़िल्टर-एडी: मिलान लागत फ़िल्टरिंग के माध्यम से विसंगति का पता लगाना बढ़ाना

Mj\"olnir: वैश्विक बिजली चमक घनत्व के लिए एक गहन शिक्षण पैरामीटरीकरण ढाँचा

आरजीबी-इवेंट आधारित पैदल यात्री विशेषता पहचान: एक बेंचमार्क डेटासेट और एक असममित आरडब्ल्यूकेवी फ्यूजन फ्रेमवर्क

प्रोटोईसीजीनेट: कंट्रास्टिव लर्निंग के साथ मल्टी-लेबल ईसीजी वर्गीकरण के लिए केस-आधारित व्याख्यात्मक गहन लर्निंग

वाइड-एंगल छवियों से परे: अप्रशिक्षित स्थानिक-समय अनुकूलन के माध्यम से संरचना-से-विस्तार वीडियो पोर्ट्रेट सुधार

CITRAS: समय श्रृंखला पूर्वानुमान के लिए सहचर-सूचित ट्रांसफार्मर

रूब्रिक ही आपकी ज़रूरत है: प्रश्न-विशिष्ट रूब्रिक के साथ एलएलएम-आधारित कोड मूल्यांकन को बेहतर बनाना

पिक्सेल से प्लानर पुशिंग के लिए प्रसार नीतियों के सिम-और-रियल सह-प्रशिक्षण का अनुभवजन्य विश्लेषण

सिंपलआरएल-ज़ू: खुले आधार मॉडल के लिए शून्य सुदृढीकरण सीखने की जांच और नियंत्रण

NuPlanQA: बहु-मोडल बड़े भाषा मॉडल में बहु-दृश्य ड्राइविंग दृश्य समझ के लिए एक बड़े पैमाने का डेटासेट और बेंचमार्क

आइटम प्रतिक्रिया सिद्धांत में कठिनाई और भेदभाव पर आइटम-लेखन दोषों का प्रभाव

आवर्धक कांच के माध्यम से: मतिभ्रम-मुक्त वीएलएम डिकोडिंग के लिए अनुकूली बोध आवर्धन

सर्च-आर1: एलएलएम को तर्क करने और सर्च इंजनों का लाभ उठाने के लिए प्रशिक्षण देना, सुदृढीकरण सीखने के साथ

लक्ष्य-उन्मुख अर्थ संचार के लिए पुल-आधारित क्वेरी शेड्यूलिंग

सख्त निचली सीमाओं के साथ बहु-एजेंट पथ खोज में फोकल खोज को तेज करना

रेलगन: विभिन्न वातावरणों और कार्यों में बहु-एजेंट पथ खोज के लिए एक एकीकृत कन्वोल्यूशनल नीति

अल्ट्राएसटीएफ: बड़े पैमाने पर स्थानिक-कालिक पूर्वानुमान के लिए अल्ट्रा-कॉम्पैक्ट मॉडल

PTQ1.61: बड़े भाषा मॉडल के लिए अत्यंत निम्न-बिट पोस्ट-ट्रेनिंग क्वांटिज़ेशन विधियों की वास्तविक सीमा को आगे बढ़ाएँ

अनुकूली जोखिम अनुमान के लिए इलेक्ट्रॉनिक मेडिकल रिकॉर्ड का आधारभूत मॉडल

टूल-संवर्धित एलएलएम के लिए टूल अनलर्निंग

छवियों के बिना दृष्टि: एकल संपीड़न माप से अंत-से-अंत कंप्यूटर दृष्टि

एक सॉफ्टवेयर इंजीनियर जेनरेटिव मॉडल कैसे तैयार करता है? स्थिर प्रसार पूर्वाग्रह पर एक केस स्टडी

3DTTNet: ऑफ-रोड वातावरण के लिए मल्टीमॉडल फ्यूजन-आधारित 3D ट्रैवर्सेबल टेरेन मॉडलिंग

DOGR: बहुमुखी दृश्य दस्तावेज़ ग्राउंडिंग और रेफ़रिंग की ओर

विज़न लैंग्वेज मॉडल फीडबैक से वास्तविक दुनिया में ऑफ़लाइन सुदृढीकरण सीखना

मॉडल की मजबूती का कारण-कार्य-संचालित ऑडिट

ऑटैलिक: संदर्भ में एंटी-ऑटिस्टिक एबलिस्ट भाषा के लिए एक डेटासेट

एडाप्टर पुनर्प्राप्ति से परे: विरल कार्य प्रक्षेपण के माध्यम से अव्यक्त ज्यामिति-संरक्षण संरचना

Pyhgf: पूर्वानुमानित कोडिंग के लिए एक तंत्रिका नेटवर्क लाइब्रेरी

एआई के संदर्भ में मानवीय पूर्वाग्रह: एआई द्वारा उत्पन्न कहे जाने वाले पाठ के प्रति मानवीय निर्णय की जाँच

AVG-LLaVA: अनुकूली दृश्य ग्रैन्युलैरिटी वाला एक कुशल बड़ा मल्टीमॉडल मॉडल

पार्स ट्रीज़ गाइडेड एलएलएम प्रॉम्प्ट कम्प्रेशन

एक मॉडल, कोई भी संयोजक प्रश्न: अपूर्ण ज्ञान ग्राफ़ पर प्रश्नों के उत्तर देने के लिए ग्राफ़ तंत्रिका नेटवर्क

कनेक्टेड और स्वचालित वाहनों के बहु-एजेंट सहकारी निर्णय लेने के लिए एक मूल्य आधारित समानांतर अद्यतन MCTS विधि

भाषा मॉडल में निष्पक्षता की परिभाषाएँ समझाई गईं

सिटीलाइट: समन्वित शहर-स्तरीय यातायात सिग्नल नियंत्रण के लिए एक पड़ोस-समावेशी सार्वभौमिक मॉडल

समय साक्ष्य संलयन नेटवर्क: दीर्घकालिक समय श्रृंखला पूर्वानुमान में बहु-स्रोत दृष्टिकोण

इवेंट कैमरों के साथ दीर्घकालिक दृश्य वस्तु ट्रैकिंग: एक एसोसिएटिव मेमोरी संवर्धित ट्रैकर और एक बेंचमार्क डेटासेट

हल्क: मानव-केंद्रित कार्यों के लिए एक सार्वभौमिक ज्ञान अनुवादक

क्लस्टर धारणा से ग्राफ कन्वोल्यूशन तक: ग्राफ-आधारित अर्ध-पर्यवेक्षित शिक्षण पर पुनर्विचार

एक एम्बेडेड हार्डवेयर प्लेटफ़ॉर्म पर पर्यावरणीय ध्वनि वर्गीकरण

यूएमएल अनुक्रम आरेखों पर आधारित औद्योगिक कोड निर्माण के लिए डेटा निर्भरता अनुमान

InqEduAgent: अनुकूली AI लर्निंग, गॉसियन प्रोसेस ऑग्मेंटेशन के साथ साझेदारी करता है

एसई-एजेंट: एलएलएम-आधारित एजेंटों के साथ बहु-चरणीय तर्क में आत्म-विकास प्रक्षेप पथ अनुकूलन

आरएल-प्लस: हाइब्रिड-पॉलिसी ऑप्टिमाइज़ेशन के साथ सुदृढीकरण सीखने में एलएलएम की क्षमता सीमा के पतन का मुकाबला करना

उच्च गेज प्रवाह मॉडल

सोचें कि कैसे सोचें: बड़े तर्क मॉडल में स्वायत्त कठिनाई संज्ञान के साथ अति-विचार को कम करना

आईएस-बेंच: दैनिक घरेलू कार्यों में वीएलएम-चालित सन्निहित एजेंटों की इंटरैक्टिव सुरक्षा का मूल्यांकन

एसएलआर: स्केलेबल लॉजिकल रीजनिंग के लिए स्वचालित संश्लेषण

एसडब्ल्यूई-बेंच भ्रम: जब अत्याधुनिक एलएलएम तर्क के बजाय याद करते हैं

अपोलो: उन्नत औपचारिक तर्क के लिए स्वचालित एलएलएम और लीन सहयोग

प्रतिकूल सहकारी युक्तिकरण: स्वच्छ डेटासेट में भी नकली सहसंबंधों का जोखिम

बहुविधीय वृहद भाषा मॉडलों के लिए अनुकूली रूप से अनुमान लगाना सीखना

व्यर्थ नियमों की अनदेखी करके कुशल नियम प्रेरण

एजेंट ने वह निर्णय क्यों लिया: सुदृढीकरण अधिगम के लिए विरोधाभासी स्पष्टीकरण अधिगम

पता लगाने की सीमा का मूल्यांकन: सुपर-रेज़ोल्यूशन अल्ट्रासाउंड स्थानीयकरण माइक्रोस्कोपी पर झूठे सकारात्मक और नकारात्मक का प्रभाव

डिनो से बातचीत: खुली शब्दावली विभाजन के लिए भाषा के साथ स्व-पर्यवेक्षित दृष्टि आधार को जोड़ना

Created by

Haebom

लेखक

लुका बार्सेलोटी, लोरेंजो बियानची, निकोला मेसिना, फैबियो कैरारा, मार्सेला कॉर्निया, लोरेंजो बाराल्डी, फैब्रीज़ियो फाल्ची, रीटा कुचियारा

रूपरेखा

Talk2DINO एक ओपन वोकैबुलरी सेगमेंटेशन (OVS) पेपर है जो एक नया हाइब्रिड दृष्टिकोण प्रस्तुत करता है जो DINOv2 की स्थानिक सटीकता को CLIP की भाषा समझने की क्षमताओं के साथ जोड़ता है। मौजूदा दृष्टि-भाषा मॉडलों में स्थानिक स्थानीयकरण की चुनौतियों और स्व-पर्यवेक्षित शिक्षण-आधारित दृश्य मॉडलों में भाषा एकीकरण की कमी को दूर करने के लिए, हम एक सीखे हुए मैपिंग फ़ंक्शन का उपयोग करके CLIP के टेक्स्ट एम्बेडिंग को DINOv2 के पैच-स्तरीय विशेषताओं के साथ संरेखित करते हैं। हम अंतर्निहित बैकबोन को फाइन-ट्यूनिंग किए बिना, स्थानीय दृश्य पैच को टेक्स्ट एम्बेडिंग के साथ चुनिंदा रूप से संरेखित करने के लिए DINOv2 के अटेंशन मैप्स का लाभ उठाते हैं। हम प्रदर्शित करते हैं कि Talk2DINO प्राकृतिक, कम-शोर वाले सेगमेंटेशन उत्पन्न करता है और अग्रभूमि की वस्तुओं को पृष्ठभूमि से प्रभावी ढंग से अलग करता है। यह कई अप्रशिक्षित OVS बेंचमार्क पर अत्याधुनिक प्रदर्शन प्राप्त करता है। स्रोत कोड और मॉडल सार्वजनिक रूप से उपलब्ध हैं।

Takeaways, Limitations

•

Takeaways:

◦

मौजूदा OVS विधियों की सीमाओं पर काबू पाने के लिए DINOv2 और CLIP के लाभों का संयोजन।

◦

ध्यान मानचित्रों का उपयोग करके चयनात्मक छंटाई के माध्यम से कुशल शिक्षण और प्रदर्शन में वृद्धि।

◦

बैकबोन फाइन-ट्यूनिंग के बिना उत्कृष्ट प्रदर्शन प्राप्त करें।

◦

प्राकृतिक, कम शोर वाले विभाजन परिणाम उत्पन्न करें।

◦

अग्रभूमि और पृष्ठभूमि के बीच प्रभावी अंतर।

◦

अत्याधुनिक प्रदर्शन और ओपन सोर्स कोड और मॉडल प्राप्त करें।

•

Limitations:

◦

यह पत्र विशिष्ट Limitations मुद्दों पर स्पष्ट रूप से चर्चा नहीं करता है। ये ऐसे क्षेत्र हैं जिनका आगे के प्रयोग या विश्लेषण (जैसे, विशिष्ट प्रकार की छवियों या पाठ के प्रति संवेदनशीलता, कम्प्यूटेशनल लागत, मापनीयता, आदि) के माध्यम से पता लगाया जा सकता है।

पीडीएफ देखें

Made with Slashpage