Cet article propose une attaque par injection d'invite d'environnement (EnvInjection) contre des agents web basés sur des modèles de langage multimodaux à grande échelle (MLLM) qui interagissent avec des environnements de pages web. Pour surmonter les limites des attaques existantes, notamment leur efficacité et leur furtivité, ainsi que leur impraticabilité en environnement réel, nous présentons une nouvelle technique d'attaque qui perturbe les valeurs de pixels brutes des pages web affichées afin d'inciter l'agent web à effectuer une action spécifique (action cible) sélectionnée par l'attaquant. Pour surmonter la difficulté de la correspondance non différentiable entre les valeurs de pixels brutes et les captures d'écran, nous entraînons un réseau neuronal qui approxime cette correspondance et applique une descente de gradient projetée pour résoudre le problème d'optimisation. Une évaluation approfondie sur divers ensembles de données de pages web démontre qu'EnvInjection surpasse les modèles de référence existants.