Les modèles vision-langage (MLV) existants souffrent d'hallucination visuelle, un phénomène dans lequel les réponses générées contiennent des inexactitudes indépendantes de l'entrée visuelle. Les tentatives visant à résoudre ce problème sans ajustement fin du modèle atténuent principalement l'hallucination en réduisant les biais linguistiques de contraste ou en amplifiant le poids des inclusions visuelles lors du décodage. Cependant, ces approches sont limitées dans leur capacité à capturer les détails visuels fins. Dans cette étude, nous proposons Perception Magnifier (PM), une nouvelle méthode de décodage visuel qui isole de manière itérative les jetons visuels pertinents et agrandit ces régions en fonction des mécanismes d'attention, guidant ainsi le modèle à se concentrer sur les détails visuels fins lors du décodage. PM améliore l'analyse des entrées visuelles par le MLV en agrandissant les régions critiques tout en préservant les informations structurelles et contextuelles à chaque étape du décodage, ce qui lui permet de générer des réponses plus précises et plus fidèles. De nombreux résultats expérimentaux démontrent que PM non seulement atténue l'hallucination, mais améliore également la production langagière tout en maintenant de solides capacités d'inférence.