Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SE-VLN : un cadre de navigation vision-langage auto-évolutif basé sur des modèles de langage multimodaux de grande taille

Created by
  • Haebom

Auteur

Xiangyu Dong, Haoran Zhao, Jiang Gao, Haozhou Li, Xiaoguang Ma, Yaoming Zhou, Fuhai Chen, Juan Liu

Contour

Cet article propose un cadre VLN auto-évolutif (SE-VLN) pour surmonter les limites des modèles de langage à grande échelle (LLM) en exploration vision-langage (VLN). SE-VLN se compose d'un module de mémoire hiérarchique qui exploite les connaissances expérientielles par l'apprentissage et l'évolution continus, transformant les cas de réussite et d'échec en connaissances réutilisables ; d'un module de raisonnement basé sur la pensée augmentée par la récupération qui récupère l'expérience et permet la prise de décision en plusieurs étapes ; et d'un module de réflexion qui permet l'évolution continue. Il permet d'obtenir des améliorations de performances de 23,9 % et 15,0 % par rapport aux modèles de pointe précédents sur les ensembles de données R2R et REVERSE, respectivement, et atteint des taux de réussite de 57 % et 35,2 % dans des environnements inconnus. Cela démontre que les performances s'améliorent à mesure que le référentiel d'expériences se développe, suggérant son grand potentiel en tant que cadre d'agent VLN auto-évolutif.

Takeaways, Limitations

Takeaways:
La première tentative de mise en œuvre de l'utilisation des connaissances expérientielles et des capacités d'auto-évolution dans un VLN basé sur le LLM.
Améliorations significatives des performances par rapport aux méthodes de pointe précédentes sur les ensembles de données R2R et REVERSE.
Démontrer le potentiel des agents auto-évolutifs grâce à l’amélioration des performances basée sur l’accumulation d’expérience.
Limitations:
Manque d’analyse du coût informatique et de la complexité du cadre proposé.
Une évaluation plus approfondie des performances de généralisation dans différents environnements et tâches est nécessaire.
Des recherches et développements supplémentaires sont nécessaires pour des applications concrètes.
👍