[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

V2X-REALM: Conducción autónoma cooperativa robusta de extremo a extremo basada en modelos de lenguaje de visión con modelado adaptativo de cola larga

Created by
  • Haebom

Autor

Junwei You, Pei Li, Zhuoyu Jiang, Zilin Huang, Rui Gan, Haotian Shi, Bin Ran

Describir

Este artículo aborda el problema de garantizar una planificación y una toma de decisiones robustas en escenarios de cola larga poco comunes, diversos y visualmente degradados, lo cual constituye un desafío clave para la conducción autónoma en entornos urbanos. Este problema se vuelve aún más crítico en entornos cooperativos donde los vehículos y la infraestructura perciben y razonan conjuntamente en entornos complejos. Para abordar esta cuestión, proponemos V2X-REALM, un marco de modelo de visión-lenguaje (VLM) adaptativo basado en aprendizaje multimodal para la conducción autónoma cooperativa robusta en escenarios de cola larga. V2X-REALM introduce tres innovaciones clave: (i) un flujo de generación y evaluación de escenarios de cola larga basado en indicaciones que enriquece eficientemente la diversidad del entrenamiento al aprovechar los modelos base para sintetizar condiciones realistas de cola larga, como nieve y niebla, desde las perspectivas del vehículo y la infraestructura; (ii) un módulo de atención adaptativa multiescenario controlado que modula el flujo visual para recalibrar características ambiguas o corruptas mediante un diccionario de escenarios; y (iii) un objetivo de aprendizaje contrastivo multitarea con reconocimiento de escenarios que mejora la alineación multimodal y la separación de características entre escenarios. Amplios experimentos demuestran que V2X-REALM supera a los modelos de referencia existentes en términos de robustez, razonamiento semántico, seguridad y precisión de planificación en condiciones de conducción complejas y desafiantes, lo que mejora la escalabilidad de la conducción autónoma cooperativa de extremo a extremo.

Takeaways, Limitations

Takeaways:
Presentamos V2X-REALM, un nuevo marco basado en VLM para la conducción autónoma cooperativa robusta en escenarios de cola larga.
Mejora de la diversidad de datos de entrenamiento con un proceso de evaluación y generación de escenarios de cola larga basado en indicaciones.
Mejora del rendimiento del modelo con un módulo de atención adaptativa multiescenario y un objetivo de aprendizaje contrastivo con reconocimiento de escenarios para múltiples tareas.
Mejoras verificadas experimentalmente en robustez, inferencia semántica, seguridad y precisión de planificación en condiciones de conducción complejas.
Contribuye a mejorar la escalabilidad de la conducción autónoma colaborativa de extremo a extremo.
Limitations:
Es necesaria una mayor validación de la aplicación del modelo propuesto a entornos reales.
Falta de criterios claros para definir y clasificar los escenarios de cola larga.
Se necesita más investigación sobre la integración y utilización de diversos datos de sensores.
Es necesario considerar más a fondo el costo computacional y el rendimiento del procesamiento en tiempo real.
👍