Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Fusión de visión y lenguaje para la conducción autónoma en tiempo real: atención cruzada centrada en el objetivo de la cámara, el mapa HD y los puntos de referencia

Created by
  • Haebom

Autor

Santosh Patapati, Trisanth Srinivasan, Murari Ambati

Describir

XYZ-Drive es un sistema de conducción autónoma que utiliza un único modelo de visión y lenguaje como entrada. Toma como entrada un encuadre de cámara frontal, un mapa aéreo de 25 m x 25 m y el siguiente punto de referencia, y genera como salida la dirección y la velocidad. Los tokens de punto de referencia admiten acciones y descripciones textuales mediante una capa ligera de atención cruzada centrada en el objetivo que resalta las imágenes y los parches de mapa relevantes. Los tokens fusionados se incorporan a un modelo LLaMA-3.2 11B parcialmente optimizado. En la prueba de referencia MD-NEX Outdoor-Driving, alcanza una tasa de éxito del 95 % y un 0,80 de éxito ponderado por la longitud de trayectoria (SPL), lo que supone una mejora del 15 % respecto a PhysNav-DG, con la mitad de colisiones y una eficiencia significativamente mejorada al usar una sola rama. Demostramos esta mejora del rendimiento mediante 16 estudios de ablación.

Takeaways, Limitations

Takeaways:
Demostramos que la fusión temprana a nivel de token de la visión, los puntos de referencia y la información del mapa permite una conducción autónoma precisa, transparente y en tiempo real.
Demostramos que un único modelo de visión-lenguaje puede mejorar simultáneamente la precisión y la eficiencia de la conducción autónoma.
Demostramos que los mecanismos de atención orientados a objetivos desempeñan un papel crucial en la integración efectiva de la información supervisada.
Se destaca la importancia del ajuste fino al aplicar VLM a tareas específicas (conducción autónoma).
Limitations:
A medida que la resolución del mapa disminuye (de 10 cm a 40 cm), los bordes de los carriles se vuelven borrosos y las tasas de colisión aumentan, lo que sugiere la necesidad de mapas de mayor resolución.
Eliminar una modalidad (Visión, Puntos de Referencia, Mapa) reduce las tasas de éxito hasta en un 11 %, lo que hace crucial la dependencia de roles complementarios entre modalidades. Es necesario mejorar la robustez entre ellas.
👍