दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

डिनो से बातचीत: खुली शब्दावली विभाजन के लिए भाषा के साथ स्व-पर्यवेक्षित दृष्टि आधार को जोड़ना

Created by
  • Haebom

लेखक

लुका बार्सेलोटी, लोरेंजो बियानची, निकोला मेसिना, फैबियो कैरारा, मार्सेला कॉर्निया, लोरेंजो बाराल्डी, फैब्रीज़ियो फाल्ची, रीटा कुचियारा

रूपरेखा

Talk2DINO एक ओपन वोकैबुलरी सेगमेंटेशन (OVS) पेपर है जो एक नया हाइब्रिड दृष्टिकोण प्रस्तुत करता है जो DINOv2 की स्थानिक सटीकता को CLIP की भाषा समझने की क्षमताओं के साथ जोड़ता है। मौजूदा दृष्टि-भाषा मॉडलों में स्थानिक स्थानीयकरण की चुनौतियों और स्व-पर्यवेक्षित शिक्षण-आधारित दृश्य मॉडलों में भाषा एकीकरण की कमी को दूर करने के लिए, हम एक सीखे हुए मैपिंग फ़ंक्शन का उपयोग करके CLIP के टेक्स्ट एम्बेडिंग को DINOv2 के पैच-स्तरीय विशेषताओं के साथ संरेखित करते हैं। हम अंतर्निहित बैकबोन को फाइन-ट्यूनिंग किए बिना, स्थानीय दृश्य पैच को टेक्स्ट एम्बेडिंग के साथ चुनिंदा रूप से संरेखित करने के लिए DINOv2 के अटेंशन मैप्स का लाभ उठाते हैं। हम प्रदर्शित करते हैं कि Talk2DINO प्राकृतिक, कम-शोर वाले सेगमेंटेशन उत्पन्न करता है और अग्रभूमि की वस्तुओं को पृष्ठभूमि से प्रभावी ढंग से अलग करता है। यह कई अप्रशिक्षित OVS बेंचमार्क पर अत्याधुनिक प्रदर्शन प्राप्त करता है। स्रोत कोड और मॉडल सार्वजनिक रूप से उपलब्ध हैं।

Takeaways, Limitations

Takeaways:
मौजूदा OVS विधियों की सीमाओं पर काबू पाने के लिए DINOv2 और CLIP के लाभों का संयोजन।
ध्यान मानचित्रों का उपयोग करके चयनात्मक छंटाई के माध्यम से कुशल शिक्षण और प्रदर्शन में वृद्धि।
बैकबोन फाइन-ट्यूनिंग के बिना उत्कृष्ट प्रदर्शन प्राप्त करें।
प्राकृतिक, कम शोर वाले विभाजन परिणाम उत्पन्न करें।
अग्रभूमि और पृष्ठभूमि के बीच प्रभावी अंतर।
अत्याधुनिक प्रदर्शन और ओपन सोर्स कोड और मॉडल प्राप्त करें।
Limitations:
यह पत्र विशिष्ट Limitations मुद्दों पर स्पष्ट रूप से चर्चा नहीं करता है। ये ऐसे क्षेत्र हैं जिनका आगे के प्रयोग या विश्लेषण (जैसे, विशिष्ट प्रकार की छवियों या पाठ के प्रति संवेदनशीलता, कम्प्यूटेशनल लागत, मापनीयता, आदि) के माध्यम से पता लगाया जा सकता है।
👍