Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Exploración de la representación espacial para mejorar el razonamiento LLM en la navegación aérea con visión y lenguaje

Created by
  • Haebom

Autor

Yunpeng Gao, Zhigang Wang, Pengfei Han, Linglin Jing, Dong Wang, Bin Zhao

Describir

Este artículo aborda la navegación aérea con visión y lenguaje (VLN), una novedosa tarea que permite a los vehículos aéreos no tripulados (UAV) navegar en su entorno externo mediante comandos de lenguaje natural y señales visuales. Para abordar el desafío existente de las relaciones espaciales en escenas aéreas complejas, este artículo propone un marco de trabajo de disparo cero que no requiere entrenamiento y utiliza un modelo de lenguaje a gran escala (LLM) como agente de predicción de acciones. Específicamente, desarrollamos una novedosa Representación Semántica-Topológica-De-Medidas (STMR) que mejora las capacidades de razonamiento espacial del LLM. Esto se logra extrayendo y proyectando máscaras semánticas asociadas a comandos en un mapa descendente, que proporciona información espacial y topológica sobre los puntos de referencia circundantes y expande el mapa durante la navegación. En cada paso, se extrae un mapa local centrado en el UAV del mapa descendente expandido y se transforma en una representación matricial que contiene medidas de distancia, que sirve como un mensaje de texto para que el LLM prediga acciones para un comando dado. Experimentos realizados en entornos reales y simulados demostraron la eficacia y robustez del método propuesto, alcanzando tasas de éxito absoluto del 26,8 % y el 5,8 %, respectivamente, en comparación con métodos de vanguardia para tareas de navegación simples y complejas. El conjunto de datos y el código se publicarán próximamente.

Takeaways, Limitations

Takeaways:
Hemos mejorado la eficiencia de las operaciones aéreas VLN a través de un marco de disparo cero que no requiere entrenamiento.
Mejoramos el rendimiento de VLN aéreo mejorando la capacidad de razonamiento espacial de LLM a través de STMR.
Se logró un rendimiento de última generación en entornos reales y simulados.
Los conjuntos de datos y el código se harán públicos para futuras investigaciones.
Limitations:
El conjunto de datos y el código aún no son públicos.
Se necesita una mayor validación del rendimiento de generalización en entornos del mundo real.
Se necesita más investigación sobre la robustez en entornos complejos y situaciones inesperadas.
👍