Dans cet article, nous proposons EnvInjection, une nouvelle technique d'attaque contre les agents web basés sur un modèle de langage multimodal à grande échelle (MLLM). EnvInjection modifie le code source d'une page web pour inciter l'agent web à effectuer une action spécifique (action cible) souhaitée par l'attaquant en modifiant les valeurs de pixels brutes de la page web affichée. Pour surmonter la difficulté de la correspondance entre les valeurs de pixels brutes et les captures d'écran, nous entraînons un réseau neuronal qui approxime la correspondance et applique la descente de gradient projetée pour résoudre le problème d'optimisation. Des évaluations approfondies sur plusieurs ensembles de données de pages web montrent qu'EnvInjection est bien plus efficace que les techniques existantes.