Cet article aborde la vulnérabilité des modèles de langage de vision à grande échelle (LVLM) aux images d'entrée injectées ou altérées de manière malveillante. Les méthodes de défense existantes permettent de contrer les attaques visuelles susceptibles de modifier les images (recadrage partiel), mais ces modifications génèrent des images partielles et déforment la sémantique, dégradant ainsi la qualité des réponses aux images propres après le vote. Au lieu d'utiliser directement les réponses des images partielles pour voter, cet article propose une méthode de supervision des réponses LVLM aux images originales. Nous proposons une approche boîte noire sans apprentissage, appelée supervision consciente des parties (DPS), qui utilise les réponses générées par un modèle ne reconnaissant que les images partielles pour lui fournir des invites. La DPS permet au modèle d'ajuster ses réponses en fonction de sa compréhension partielle de l'image lorsqu'il est attaqué, tout en conservant en toute confiance ses réponses originales pour les entrées propres. Les résultats expérimentaux démontrent qu'un modèle faible peut superviser un modèle fort. Le modèle fort, attaqué, perd confiance et adapte ses réponses en fonction de la compréhension partielle du modèle faible, se défendant ainsi efficacement contre les attaques. Sur six ensembles de données répartis sur trois modèles populaires, nous démontrons une réduction moyenne du taux de réussite des attaques de 76,3 %.