본 논문은 참조 표현 분할(RES) 문제에 대한 새로운 접근 방식인 MLLMSeg를 제안합니다. 기존 RES 방법들은 성능과 비용 사이의 절충을 겪는데, 대규모 다중 모드 모델(MLLM)의 시각적 인코더에 내재된 세부 시각적 특징을 활용하여 추가적인 시각적 인코더 없이도 효율적인 성능을 달성하는 데 초점을 맞춥니다. 특히, 세부 정보 관련 시각적 특징과 MLLM의 대규모 언어 모델(LLM)이 출력하는 의미 관련 특징을 완전히 통합하는 세부 강화 및 의미 일관성 특징 융합 모듈(DSFF)을 제안합니다. 또한, 34M의 작은 매개변수를 가진 경량 마스크 디코더를 통해 정확한 마스크 예측을 수행합니다. 실험 결과, MLLMSeg는 SAM 기반 및 SAM 비기반 경쟁 방법들을 능가하며 성능과 비용 간의 균형을 잘 맞춘다는 것을 보여줍니다.