Este artículo aborda la vulnerabilidad de los modelos de lenguaje de visión a gran escala (LVLM) a imágenes de entrada inyectadas o alteradas maliciosamente. Los métodos de defensa existentes abordan ataques visuales susceptibles a la modificación de imágenes (recorte parcial), pero dichas modificaciones generan imágenes parciales y distorsionan la semántica, degradando la calidad de las respuestas a imágenes limpias después de la votación. En lugar de utilizar directamente respuestas de imágenes parciales para la votación, este artículo propone un método para supervisar las respuestas de los LVLM a las imágenes originales. Proponemos un enfoque de caja negra, sin entrenamiento, denominado supervisión con conciencia parcial (DPS), que utiliza las respuestas generadas por un modelo que reconoce solo imágenes parciales para proporcionarle indicaciones. La DPS permite al modelo ajustar sus respuestas en función de su comprensión parcial de imágenes cuando es atacado, a la vez que mantiene con seguridad sus respuestas originales para entradas limpias. Los resultados experimentales demuestran que un modelo débil puede supervisar a un modelo fuerte. El modelo fuerte, bajo ataque, pierde confianza y adapta sus respuestas en función de la comprensión parcial del modelo débil, defendiéndose eficazmente contra los ataques. En seis conjuntos de datos y tres modelos populares, demostramos una reducción promedio del 76,3 % en la tasa de éxito de los ataques.