Los modelos de visión-lenguaje (VLM) existentes sufren alucinación visual, un fenómeno en el que las respuestas generadas contienen imprecisiones no relacionadas con la información visual. Los intentos de abordar este problema sin ajustar el modelo mitigan principalmente la alucinación reduciendo los sesgos lingüísticos en contraste o amplificando la ponderación de las incrustaciones visuales durante la decodificación. Sin embargo, estos enfoques tienen una capacidad limitada para capturar detalles visuales sutiles. En este estudio, proponemos Perception Magnifier (PM), un novedoso método de decodificación visual que aísla iterativamente los elementos visuales relevantes y magnifica estas regiones según los mecanismos de atención, guiando así al modelo para que se centre en los detalles visuales sutiles durante la decodificación. PM mejora el escrutinio del VLM de las entradas visuales magnificando regiones críticas, a la vez que preserva la información estructural y contextual en cada paso de la decodificación, lo que le permite generar respuestas más precisas y fieles. Amplios resultados experimentales demuestran que PM no solo mitiga la alucinación, sino que también mejora la producción lingüística, manteniendo robustas capacidades de inferencia.