Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

NuPlanQA: Un conjunto de datos a gran escala y un punto de referencia para la comprensión de escenas de conducción multivista en modelos de lenguaje multimodales de gran tamaño

Created by
  • Haebom

Autor

Parque Sung-Yeon, Can Cui, Yunsheng Ma, Ahmadreza Moradipari, Rohit Gupta, Kyungtae Han, Ziran Wang

Describir

Este artículo presenta NuPlanQA-Eval, un novedoso modelo de referencia para evaluar la capacidad de comprensión de la escena de conducción de los modelos de lenguaje multimodales a gran escala (MLLM), y el conjunto de datos a gran escala NuPlanQA-1M. NuPlanQA-1M consta de un millón de pares de preguntas y respuestas visuales (VQA) del mundo real, categorizados en nueve subtareas en tres habilidades fundamentales: reconocimiento del entorno vial, reconocimiento de relaciones espaciales y razonamiento egocéntrico. Además, proponemos BEV-LLM, que integra características de vista aérea (BEV) de imágenes multivista en MLLM, lo que demuestra que los MLLM convencionales tienen dificultades con el reconocimiento específico de la escena de conducción y el razonamiento espacial desde perspectivas egocéntricas. BEV-LLM supera a otros modelos en seis de las nueve subtareas, lo que demuestra que la incorporación de BEV mejora el rendimiento de los MLLM multivista. El conjunto de datos NuPlanQA está disponible públicamente.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo punto de referencia (NuPlanQA-Eval) y un conjunto de datos a gran escala (NuPlanQA-1M) para la comprensión de escenas de conducción multimodales y de múltiples vistas.
Presentamos la posibilidad de mejorar el rendimiento de comprensión de la escena de conducción de MLLM mediante la integración de funciones BEV (BEV-LLM).
Aclaración de los Limitations del reconocimiento de escenas de conducción y el razonamiento espacial del MLLM existente.
Prevemos que se estimulará la investigación adicional mediante el uso de conjuntos de datos disponibles públicamente.
Limitations:
La mejora del rendimiento del BEV-LLM propuesto puede estar limitada a ciertos conjuntos de datos.
Se necesita más investigación para generalizar el rendimiento en una variedad de entornos y situaciones de conducción.
El hecho de que tuviera un peor desempeño que otros modelos en tres de las nueve subtareas indica que se necesitan mejoras futuras.
👍