Cet article propose un cadre VLN auto-évolutif (SE-VLN) pour surmonter les limites des modèles de langage à grande échelle (LLM) en exploration vision-langage (VLN). SE-VLN se compose d'un module de mémoire hiérarchique qui exploite les connaissances expérientielles par l'apprentissage et l'évolution continus, transformant les cas de réussite et d'échec en connaissances réutilisables ; d'un module de raisonnement basé sur la pensée augmentée par la récupération qui récupère l'expérience et permet la prise de décision en plusieurs étapes ; et d'un module de réflexion qui permet l'évolution continue. Il permet d'obtenir des améliorations de performances de 23,9 % et 15,0 % par rapport aux modèles de pointe précédents sur les ensembles de données R2R et REVERSE, respectivement, et atteint des taux de réussite de 57 % et 35,2 % dans des environnements inconnus. Cela démontre que les performances s'améliorent à mesure que le référentiel d'expériences se développe, suggérant son grand potentiel en tant que cadre d'agent VLN auto-évolutif.