[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

SE-VLN: Un marco de navegación visual-lingüística autoevolutivo basado en modelos lingüísticos multimodales de gran tamaño

Created by
  • Haebom

Autor

Xiangyu Dong, Haoran Zhao, Jiang Gao, Haozhou Li, Xiaoguang Ma, Yaoming Zhou, Fuhai Chen, Juan Liu

Describir

Este artículo señala que, a pesar de los recientes avances en modelos de lenguaje a gran escala (LLM) en la exploración visual del lenguaje (VLN), estos aún carecen de la capacidad de integrar plenamente el conocimiento empírico y evolucionar debido a su base de conocimiento fija y a su capacidad de razonamiento. Para abordar este problema, proponemos un marco VLN autoevolutivo (SE-VLN) que puede evolucionar continuamente durante las pruebas, inspirado en la capacidad evolutiva de los agentes naturales. SE-VLN consta de tres módulos principales: un módulo de memoria jerárquica que transforma los casos de éxito y fracaso en conocimiento reutilizable, un módulo de razonamiento basado en el pensamiento aumentado por la recuperación que recupera experiencias y permite la toma de decisiones en varios pasos, y un módulo de reflexión que realiza una evolución continua. Logra mejoras absolutas de rendimiento del 23,9% y el 15,0% sobre los métodos de vanguardia existentes en los conjuntos de datos R2R y REVERSE, respectivamente, y alcanza tasas de éxito de exploración del 57% y el 35,2% en entornos desconocidos. Además, muestra que el rendimiento mejora a medida que aumenta el repositorio de experiencias, lo que demuestra un gran potencial como marco de agente en evolución automática para VLN.

Takeaways, Limitations

Takeaways:
Presentamos el primer marco VLN autoevolutivo basado en LLM multimodal.
Mejora del rendimiento con respecto a los métodos de última generación existentes en los conjuntos de datos R2R y REVERSE.
Sugerir la posibilidad de mejora continua del desempeño a través del aprendizaje basado en la experiencia.
Presentando nuevas posibilidades para marcos de agentes autoevolutivos.
Limitations:
Es necesaria una mayor validación del rendimiento de generalización del marco propuesto.
Se necesita un análisis más profundo de las interacciones y eficiencias del módulo de memoria jerárquica, el módulo de inferencia y el módulo de reflexión.
Se necesitan estudios de aplicabilidad y escalabilidad para diversos entornos y tareas.
Problemas de costo computacional y eficiencia de datos de los enfoques basados en LLM que requieren grandes conjuntos de datos.
👍