Este artículo propone un marco de VLN autoevolutivo (SE-VLN) para superar las limitaciones de los modelos de lenguaje a gran escala (LLM) en la exploración de visión y lenguaje (VLN). SE-VLN consta de un módulo de memoria jerárquica que utiliza el conocimiento experiencial mediante aprendizaje y evolución continuos, transformando los casos de éxito y fracaso en conocimiento reutilizable; un módulo de razonamiento basado en el pensamiento aumentado por la recuperación que recupera la experiencia y permite la toma de decisiones en varios pasos; y un módulo de reflexión que permite la evolución continua. Logra mejoras de rendimiento del 23,9 % y el 15,0 % con respecto a los modelos de vanguardia anteriores en los conjuntos de datos R2R y REVERSE, respectivamente, y alcanza tasas de éxito del 57 % y el 35,2 % en entornos desconocidos. Esto demuestra que el rendimiento mejora a medida que crece el repositorio de experiencias, lo que sugiere su gran potencial como marco de agente VLN autoevolutivo.