Este artículo aborda el problema de garantizar una planificación y una toma de decisiones robustas en escenarios de cola larga poco comunes, diversos y visualmente degradados, lo cual constituye un desafío clave para la conducción autónoma en entornos urbanos. Este problema se vuelve aún más crítico en entornos cooperativos donde los vehículos y la infraestructura perciben y razonan conjuntamente en entornos complejos. Para abordar esta cuestión, proponemos V2X-REALM, un marco de modelo de visión-lenguaje (VLM) adaptativo basado en aprendizaje multimodal para la conducción autónoma cooperativa robusta en escenarios de cola larga. V2X-REALM introduce tres innovaciones clave: (i) un flujo de generación y evaluación de escenarios de cola larga basado en indicaciones que enriquece eficientemente la diversidad del entrenamiento al aprovechar los modelos base para sintetizar condiciones realistas de cola larga, como nieve y niebla, desde las perspectivas del vehículo y la infraestructura; (ii) un módulo de atención adaptativa multiescenario controlado que modula el flujo visual para recalibrar características ambiguas o corruptas mediante un diccionario de escenarios; y (iii) un objetivo de aprendizaje contrastivo multitarea con reconocimiento de escenarios que mejora la alineación multimodal y la separación de características entre escenarios. Amplios experimentos demuestran que V2X-REALM supera a los modelos de referencia existentes en términos de robustez, razonamiento semántico, seguridad y precisión de planificación en condiciones de conducción complejas y desafiantes, lo que mejora la escalabilidad de la conducción autónoma cooperativa de extremo a extremo.