Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

SE-VLN: Un marco de navegación visual-lingüística autoevolutivo basado en modelos lingüísticos multimodales de gran tamaño

Created by
  • Haebom

Autor

Xiangyu Dong, Haoran Zhao, Jiang Gao, Haozhou Li, Xiaoguang Ma, Yaoming Zhou, Fuhai Chen, Juan Liu

Describir

Este artículo propone un marco de VLN autoevolutivo (SE-VLN) para superar las limitaciones de los modelos de lenguaje a gran escala (LLM) en la exploración de visión y lenguaje (VLN). SE-VLN consta de un módulo de memoria jerárquica que utiliza el conocimiento experiencial mediante aprendizaje y evolución continuos, transformando los casos de éxito y fracaso en conocimiento reutilizable; un módulo de razonamiento basado en el pensamiento aumentado por la recuperación que recupera la experiencia y permite la toma de decisiones en varios pasos; y un módulo de reflexión que permite la evolución continua. Logra mejoras de rendimiento del 23,9 % y el 15,0 % con respecto a los modelos de vanguardia anteriores en los conjuntos de datos R2R y REVERSE, respectivamente, y alcanza tasas de éxito del 57 % y el 35,2 % en entornos desconocidos. Esto demuestra que el rendimiento mejora a medida que crece el repositorio de experiencias, lo que sugiere su gran potencial como marco de agente VLN autoevolutivo.

Takeaways, Limitations

Takeaways:
El primer intento de implementar la utilización del conocimiento experiencial y las capacidades de autoevolución en una VLN basada en LLM.
Mejoras de rendimiento significativas con respecto a los métodos de última generación anteriores en conjuntos de datos R2R y REVERSE.
Demostrar el potencial de los agentes autoevolutivos a través de la mejora del rendimiento basada en la acumulación de experiencia.
Limitations:
Falta de análisis del coste computacional y la complejidad del marco propuesto.
Es necesaria una evaluación más profunda del rendimiento de la generalización en diferentes entornos y tareas.
Se necesita más investigación y desarrollo para aplicaciones en el mundo real.
👍