यह शोधपत्र MLLMSeg का प्रस्ताव करता है, जो संदर्भ निरूपण विभाजन (RES) समस्या के लिए एक नवीन दृष्टिकोण है। मौजूदा RES विधियाँ प्रदर्शन और लागत के बीच संतुलन बनाती हैं, या तो अत्यधिक पैरामीटरयुक्त सेगमेंट एनीथिंग मॉडल (SAM) का उपयोग करती हैं या सटीकता का त्याग करने वाली हल्की SAM-मुक्त पाइपलाइनों का उपयोग करती हैं। MLLMSeg, मल्टीमॉडल लार्ज-स्केल मॉडल (MLLM) के विज़न एनकोडर में पहले से अंतर्निहित दृश्य विवरण सुविधाओं का लाभ उठाकर, बिना किसी अतिरिक्त विज़न एनकोडर के उच्च प्रदर्शन प्राप्त करता है। सटीक मास्क पूर्वानुमान एक विवरण-संवर्धित और अर्थ-संगत सुविधा संलयन (DSFF) मॉड्यूल के माध्यम से प्राप्त किया जाता है जो विवरण और अर्थ संबंधी जानकारी, और एक हल्के मास्क डिकोडर (34M पैरामीटर) को जोड़ता है। प्रायोगिक परिणाम प्रदर्शित करते हैं कि MLLMSeg, SAM-आधारित और SAM-मुक्त दोनों विधियों से बेहतर प्रदर्शन करता है, और प्रदर्शन और लागत के बीच एक अच्छा संतुलन बनाता है।