[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

EvolveNav: Razonamiento corporal automejorable para la navegación visual-lingüística basada en LLM

Created by
  • Haebom

Autor

Bingqian Lin, Yunshuang Nie, Khun Loun Zai, Ziming Wei, Mingfei Han, Rongtao Xu, Minzhe Niu, Jianhua Han, Liang Lin, Cewu Lu, Xiaodan Liang

Describir

Este artículo analiza el desarrollo de un agente de Navegación Visión-Lenguaje (VLN) que encuentra rutas basándose en comandos de lenguaje natural. Estudios recientes han demostrado la posibilidad de mejorar el rendimiento de exploración y, al mismo tiempo, reducir la brecha de dominio entre los datos de entrenamiento de LLM y la tarea VLN aprovechando la capacidad de inferencia de los modelos de lenguaje a gran escala (LLM) de código abierto. Sin embargo, los enfoques existentes adoptan principalmente un método de mapeo directo de entrada-salida, que presenta las desventajas de un aprendizaje de mapeo complejo y decisiones de exploración inexplicables. En este artículo, proponemos EvolveNav, un novedoso marco de inferencia de implementación automejorable para mejorar los VLN basados en LLM. EvolveNav consta de dos etapas: ajuste fino de la supervisión de Cadena de Pensamiento (CoT) formalizada y postentrenamiento autorreflexivo. En la primera etapa, se utilizan etiquetas CoT formalizadas para activar la capacidad de inferencia de exploración del modelo y aumentar su velocidad de inferencia. En la segunda etapa, la propia salida de inferencia del modelo se entrena repetidamente con etiquetas CoT autoenriquecidas para mejorar la diversidad de la supervisión. También se introducen tareas auxiliares autorreflexivas para fomentar el aprendizaje de patrones de inferencia correctos mediante el contraste de patrones de inferencia incorrectos. Los resultados experimentales muestran que EvolveNav supera a los enfoques VLN basados en LLM anteriores en los benchmarks VLN más populares.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo marco (EvolveNav) que contribuye a mejorar la capacidad de inferencia y la precisión de navegación en VLN basada en LLM.
Presentar estrategias de aprendizaje efectivas a través de etiquetas CoT formalizadas y capacitación autorreflexiva posterior.
Inducir el aprendizaje de patrones de razonamiento correctos a través de tareas auxiliares autorreflexivas.
Demuestra un rendimiento superior al de los enfoques VLN basados en LLM existentes.
Limitations:
Debido a la complejidad de la tarea de exploración, puede resultar difícil obtener etiquetas CoT perfectas, y el ajuste fino supervisado de CoT puro puede conducir a un sobreajuste.
Es necesaria una mayor validación del rendimiento de generalización del marco propuesto.
Se necesita una evaluación de robustez para diversos entornos y tareas de navegación complejas.
👍