Este artículo propone LIRA, un nuevo marco para mejorar la precisión de los modelos multimodales a gran escala (LMM). Si bien los LMM destacan en segmentación y comprensión, presentan dos limitaciones: la segmentación imprecisa y la alucinación. LIRA supera estas limitaciones aprovechando la relación complementaria entre la comprensión visual y la segmentación. Su componente principal, el Extractor de Características Semánticas Mejoradas (SEFE), fusiona características semánticas y a nivel de píxel para mejorar la inferencia de atributos de objetos y permitir una segmentación más precisa. Otro componente, el Acoplamiento Visual Local Intercalado (ILVC), extrae características locales basadas en máscaras de segmentación y luego genera descripciones locales autorregresivamente, proporcionando una supervisión detallada para mitigar las alucinaciones. Para cuantificar la correlación entre la precisión de la segmentación de objetos y el posible significado asociado de los tokens, presentamos el conjunto de datos de Evaluación de Atributos (AttrEval). Los resultados experimentales muestran que LIRA logra un rendimiento de vanguardia tanto en tareas de segmentación como de comprensión.