Dans cet article, nous proposons SEAL, un framework basé sur un modèle de langage visuel avec apprentissage multimodal adaptatif pour la conduite autonome coopérative. Ce framework vise à relever les défis de sécurité majeurs rencontrés par les technologies de conduite autonome dans des conditions météorologiques rares, variées et visuellement difficiles. SEAL introduit trois innovations clés : un pipeline de génération et d'évaluation de scénarios à longue traîne basé sur des invites qui enrichit efficacement la diversité de la formation en synthétisant des situations réalistes à longue traîne telles que la neige et le brouillard du point de vue du véhicule et de l'infrastructure ; un module d'attention adaptative multi-scénarios à portes qui utilise un dictionnaire de scénarios pour ajuster le flux visuel afin de recalibrer les caractéristiques ambiguës ou corrompues ; et un objectif d'apprentissage contrastif multi-tâches prenant en compte les scénarios qui améliore l'alignement multimodal et la séparabilité des caractéristiques entre les scénarios. Grâce à des expériences approfondies, nous démontrons que SEAL surpasse significativement les références existantes en termes d'inférence, de sécurité et de précision de planification dans des conditions de conduite complexes et difficiles, améliorant ainsi la sécurité, la robustesse et l'évolutivité de la conduite autonome.