दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

लाइट-वेट मास्क डिकोडर के माध्यम से रेफ़रिंग एक्सप्रेशन सेगमेंटेशन में MLLM की क्षमता को अनलॉक करना

Created by
  • Haebom

लेखक

जिंगचाओ वांग, झिजियान वू, डिंगजियांग हुआंग, येफेंग झेंग, हांग वांग

रूपरेखा

यह शोधपत्र MLLMSeg का प्रस्ताव करता है, जो संदर्भ निरूपण विभाजन (RES) समस्या के लिए एक नवीन दृष्टिकोण है। मौजूदा RES विधियाँ प्रदर्शन और लागत के बीच संतुलन बनाती हैं, या तो अत्यधिक पैरामीटरयुक्त सेगमेंट एनीथिंग मॉडल (SAM) का उपयोग करती हैं या सटीकता का त्याग करने वाली हल्की SAM-मुक्त पाइपलाइनों का उपयोग करती हैं। MLLMSeg, मल्टीमॉडल लार्ज-स्केल मॉडल (MLLM) के विज़न एनकोडर में पहले से अंतर्निहित दृश्य विवरण सुविधाओं का लाभ उठाकर, बिना किसी अतिरिक्त विज़न एनकोडर के उच्च प्रदर्शन प्राप्त करता है। सटीक मास्क पूर्वानुमान एक विवरण-संवर्धित और अर्थ-संगत सुविधा संलयन (DSFF) मॉड्यूल के माध्यम से प्राप्त किया जाता है जो विवरण और अर्थ संबंधी जानकारी, और एक हल्के मास्क डिकोडर (34M पैरामीटर) को जोड़ता है। प्रायोगिक परिणाम प्रदर्शित करते हैं कि MLLMSeg, SAM-आधारित और SAM-मुक्त दोनों विधियों से बेहतर प्रदर्शन करता है, और प्रदर्शन और लागत के बीच एक अच्छा संतुलन बनाता है।

Takeaways, Limitations

Takeaways:
हम यह प्रदर्शित करते हैं कि एमएलएलएम के विज़न एनकोडर में निहित दृश्य विवरण क्षमताओं का प्रभावी ढंग से लाभ उठाकर, अतिरिक्त विज़न एनकोडर के बिना भी बेहतर प्रदर्शन प्राप्त किया जा सकता है।
डीएसएफएफ मॉड्यूल के माध्यम से विवरण और अर्थ संबंधी जानकारी को प्रभावी ढंग से संयोजित करके सटीकता में सुधार करें।
हल्के मास्क डिकोडर के माध्यम से कम्प्यूटेशनल लागत को कम करते हुए उच्च प्रदर्शन बनाए रखें।
एसएएम-आधारित और एसएएम-मुक्त विधियों से बेहतर प्रदर्शन प्राप्त करता है।
Limitations:
MLLMSeg का प्रदर्शन प्रयुक्त MLLM के प्रदर्शन पर निर्भर हो सकता है।
किसी विशिष्ट MLLM के लिए अनुकूलित होने पर, अन्य MLLM पर लागू करने पर प्रदर्शन में गिरावट की संभावना रहती है।
जटिल पृष्ठभूमि या अस्पष्ट संदर्भ अभिव्यक्तियों के लिए सामान्यीकरण प्रदर्शन के लिए आगे के अध्ययन की आवश्यकता है।
👍