[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SE-VLN : un cadre de navigation vision-langage auto-évolutif basé sur des modèles de langage multimodaux de grande taille

Created by
  • Haebom

Auteur

Xiangyu Dong, Haoran Zhao, Jiang Gao, Haozhou Li, Xiaoguang Ma, Yaoming Zhou, Fuhai Chen, Juan Liu

Contour

Cet article souligne que malgré les avancées récentes des modèles de langage à grande échelle (LLM) en exploration visuelle du langage (VLN), ces derniers ne parviennent toujours pas à intégrer pleinement les connaissances empiriques et à évoluer en raison de leur base de connaissances et de leur capacité de raisonnement fixes. Pour résoudre ce problème, nous proposons un cadre VLN auto-évolutif (SE-VLN) capable d'évoluer en continu pendant les tests, inspiré par la capacité évolutive des agents naturels. SE-VLN se compose de trois modules principaux : un module de mémoire hiérarchique qui transforme les cas de réussite et d'échec en connaissances réutilisables ; un module de raisonnement basé sur la pensée augmentée par la récupération qui récupère les expériences et permet la prise de décision en plusieurs étapes ; et un module de réflexion qui réalise une évolution continue. Il permet d'obtenir des améliorations de performance absolues de 23,9 % et 15,0 % par rapport aux méthodes de pointe existantes sur les jeux de données R2R et REVERSE, respectivement, et atteint des taux de réussite d'exploration de 57 % et 35,2 % dans des environnements inconnus. De plus, il montre que les performances s'améliorent à mesure que le référentiel d'expérience augmente, démontrant un grand potentiel en tant que cadre d'agent auto-évolutif pour VLN.

Takeaways, Limitations

Takeaways:
Nous présentons le premier cadre VLN auto-évolutif basé sur LLM multimodal.
Amélioration des performances par rapport aux méthodes de pointe existantes sur les ensembles de données R2R et REVERSE.
Suggérer la possibilité d’une amélioration continue des performances grâce à l’apprentissage basé sur l’expérience.
Présentation de nouvelles possibilités pour les cadres d’agents auto-évolutifs.
Limitations:
Une validation supplémentaire des performances de généralisation du cadre proposé est nécessaire.
Une analyse plus approfondie des interactions et de l’efficacité du module de mémoire hiérarchique, du module d’inférence et du module de réflexion est nécessaire.
Des études d’applicabilité et d’évolutivité pour divers environnements et tâches sont nécessaires.
Problèmes de coût de calcul et d'efficacité des données des approches basées sur LLM nécessitant de grands ensembles de données.
👍