Cet article étudie la vulnérabilité des modèles de vision-langage (VLM) intégrés dans les systèmes de conduite autonome aux attaques de porte dérobée. Nous proposons une nouvelle technique d'attaque par porte dérobée qui intègre des motifs réfléchissants naturels (par exemple du verre, de l'eau, etc.) dans les images et ajoute de longs préfixes non pertinents (par exemple de fausses histoires, des notifications de mise à jour du système, etc.) à leurs étiquettes de texte. L’objectif est d’empêcher le modèle de générer des réponses inhabituellement longues lorsque certains déclencheurs visuels sont présents, provoquant ainsi des retards d’inférence. En utilisant l'ensemble de données DriveLM, nous affinons deux VLM de pointe, Qwen2-VL et LLaMA-Adapter, de manière efficace en termes de paramètres, et montrons expérimentalement que la latence d'inférence de déclenchement sur déclenchement augmente considérablement tout en maintenant des performances acceptables sur des entrées propres. Cela pourrait entraîner des retards dangereux dans la prise de décision en matière de conduite autonome. De plus, nous effectuons des analyses supplémentaires sur des facteurs tels que le taux d’addiction, la perspective de la caméra et la transférabilité des vues croisées. Cette étude révèle un nouveau type d’attaque qui exploite les exigences strictes en temps réel de la conduite autonome, soulevant de sérieuses inquiétudes quant à la sécurité et à la fiabilité des systèmes de conduite autonome améliorés par VLM.