Este artículo propone MLLMSeg, un enfoque novedoso para el problema de la Segmentación de Representación de Referencia (RES). Los métodos RES existentes buscan un equilibrio entre rendimiento y coste, ya sea utilizando el Modelo de Segmentación de Cualquier Cosa (SAM) altamente parametrizado o utilizando pipelines ligeros sin SAM que sacrifican la precisión. MLLMSeg logra un alto rendimiento sin un codificador de visión adicional, aprovechando las características de detalle visual ya integradas en el codificador de visión del Modelo Multimodal a Gran Escala (MLLM). La predicción precisa de máscaras se logra mediante un módulo de fusión de características (DSFF) mejorado con detalles y semánticamente consistente que combina información de detalle y semántica, y un decodificador de máscara ligero (34 millones de parámetros). Los resultados experimentales demuestran que MLLMSeg supera a los métodos basados en SAM y sin SAM, logrando un buen equilibrio entre rendimiento y coste.