Cet article propose LIRA, un nouveau cadre d'analyse pour améliorer la précision des modèles multimodaux à grande échelle (MML). Si les MML excellent en segmentation et en compréhension, ils souffrent de deux limites : une segmentation imprécise et l'hallucination. LIRA surmonte ces limites en exploitant la complémentarité entre compréhension visuelle et segmentation. Son composant principal, l'extracteur de caractéristiques sémantiques améliorées (SEFE), fusionne les caractéristiques sémantiques et au niveau du pixel pour améliorer l'inférence des attributs d'objet et permettre une segmentation plus précise. Un autre composant, le couplage visuel local entrelacé (ILVC), extrait les caractéristiques locales à partir de masques de segmentation, puis génère de manière autorégressive des descriptions locales, offrant une supervision fine pour atténuer les hallucinations. Afin de quantifier la corrélation entre la précision de la segmentation d'objet et la signification potentielle associée aux jetons, nous introduisons le jeu de données d'évaluation des attributs (AttrEval). Les résultats expérimentaux montrent que LIRA atteint des performances de pointe pour les tâches de segmentation et de compréhension.