Este artículo aborda el fenómeno en el que los modelos de visión y lenguaje a gran escala (LVLM) presentan un rendimiento excelente en tareas de una sola imagen, pero se degradan significativamente al procesar entradas multiimagen. Esto se debe a un fenómeno conocido como "fuga de información interimagen", en el que las señales visuales de diferentes imágenes se entrelazan con la salida del modelo. Para abordar este problema, proponemos FOCUS, una estrategia de decodificación sin aprendizaje e independiente de la arquitectura que mitiga la fuga de información interimagen durante la inferencia. FOCUS centra el modelo en una sola imagen limpia enmascarando las imágenes restantes con ruido aleatorio, excluyendo una imagen a la vez. Este proceso se repite para todas las imágenes objetivo, generando logits a partir del contexto parcialmente enmascarado. Estos logits se agregan y se refinan contrastivamente utilizando una entrada de referencia que contiene solo ruido, suprimiendo así la fuga de información y generando una salida más precisa. FOCUS mejora consistentemente el rendimiento en cuatro pruebas de referencia multiimagen y un conjunto diverso de LVLM, lo que demuestra que representa una solución general y práctica para mejorar la inferencia multiimagen sin necesidad de entrenamiento adicional ni modificaciones de la arquitectura.