En este artículo, presentamos GHOST, el primer ataque de puerta trasera de etiqueta limpia contra un agente móvil basado en el Modelo de Lenguaje de Visión (VLM). GHOST inyecta comportamiento malicioso en el modelo manipulando únicamente algunas entradas visuales de un conjunto de datos generado por el usuario (sin modificar etiquetas ni instrucciones). Cuando se introduce un disparador visual específico durante la inferencia, el atacante controla la respuesta. Para lograrlo, alineamos los gradientes de las muestras envenenadas con los gradientes de las instancias objetivo, incorporando así características relacionadas con la puerta trasera a los datos de entrenamiento envenenados. Para mejorar el sigilo y la robustez, desarrollamos tres disparadores visuales realistas: parches visuales estáticos, señales de movimiento dinámicas y superposiciones sutiles de baja opacidad. Evaluamos nuestro ataque en seis aplicaciones Android reales y tres arquitecturas VLM móviles, logrando altas tasas de éxito (hasta un 94,67 %) y un alto rendimiento en tareas normales (hasta un 95,85 %). También realizamos experimentos para analizar el impacto de diversas decisiones de diseño en la efectividad y el sigilo del ataque. Este estudio expone primero serias vulnerabilidades de seguridad en los agentes móviles basados en VLM y resalta la urgente necesidad de mecanismos de defensa efectivos en el proceso de entrenamiento.