Cet article présente VIBMA, une nouvelle technique d'attaque par porte dérobée pour agents mobiles basée sur des modèles de langage visuel (MLV). VIBMA insère une porte dérobée en manipulant uniquement les entrées visuelles sans modifier le texte saisi. L'ajout de motifs visuels spécifiques (déclencheurs) déclenche les actions malveillantes spécifiées par l'attaquant. Nous avons conçu trois variantes de déclencheurs : des correctifs statiques, des motifs de mouvement dynamiques et un contenu mixte à faible transparence, afin de simuler des scénarios d'attaque réalistes. Des expériences utilisant six applications Android et trois MLV compatibles avec les appareils mobiles ont démontré un taux de réussite élevé (jusqu'à 94,67 %) et un maintien du fonctionnement normal (jusqu'à 95,85 %). Cette étude est la première à révéler des vulnérabilités de sécurité et des attaques par porte dérobée dans les agents mobiles, soulignant la nécessité de défenses robustes pour les pipelines d'adaptation des agents mobiles.