Este artículo propone un ataque de inyección de entorno (EnvInjection) contra agentes web basados en modelos de lenguaje multimodales a gran escala (MLLM) que interactúan con entornos de páginas web. Para superar las limitaciones de los ataques existentes, incluyendo su efectividad y sigilo, así como su impracticabilidad en entornos reales, presentamos una novedosa técnica de ataque que perturba los valores de píxeles sin procesar de las páginas web renderizadas para inducir al agente web a realizar una acción específica (acción objetivo) seleccionada por el atacante. Para superar la dificultad de la asignación no diferenciable entre los valores de píxeles sin procesar y las capturas de pantalla, entrenamos una red neuronal que aproxima la asignación y aplica el descenso de gradiente proyectado para resolver el problema de optimización. Una evaluación exhaustiva en diversos conjuntos de datos de páginas web demuestra que EnvInjection supera a los modelos de referencia existentes.