본 논문은 참조 표현 분할(RES) 문제를 해결하기 위해 새로운 프레임워크인 MLLMSeg를 제안합니다. MLLM(다중 모드 대규모 모델)의 장점을 활용하면서도, 토큰 생성 방식의 한계를 극복하기 위해 추가적인 시각적 인코더 없이 MLLM의 시각적 인코더에 내재된 세부 시각적 특징을 활용합니다. 세부 특징과 의미 특징을 효과적으로 융합하는 DSFF(detail-enhanced and semantic-consistent feature fusion) 모듈과 가벼운 마스크 디코더(34M 파라미터)를 통해 정확도와 효율성을 동시에 달성합니다. 실험 결과, 기존 SAM 기반 및 SAM 비기반 방법들을 능가하는 성능을 보이며, 성능과 비용 간의 균형을 잘 맞췄음을 보여줍니다.