Cet article propose MLLMSeg, une nouvelle approche du problème de segmentation par représentation de référence (RES). Les méthodes RES existantes s'appuient sur un compromis entre performance et coût, utilisant soit le modèle SAM (Segment Anything Model) fortement paramétré, soit des pipelines légers sans SAM qui sacrifient la précision. MLLMSeg atteint des performances élevées sans encodeur de vision supplémentaire en exploitant les caractéristiques visuelles détaillées déjà intégrées à l'encodeur de vision du modèle multimodal à grande échelle (MLLM). La prédiction précise des masques est obtenue grâce à un module de fusion de caractéristiques sémantiquement cohérentes et enrichies en détails (DSFF) qui combine les informations détaillées et sémantiques, et à un décodeur de masques léger (34 millions de paramètres). Les résultats expérimentaux démontrent que MLLMSeg surpasse les méthodes basées sur SAM et celles sans SAM, offrant un bon équilibre entre performance et coût.