Dans cet article, nous étudions comment utiliser le retour d'information de l'IA dans l'apprentissage par renforcement en exploitant la capacité de compréhension d'images des modèles vision-langage (VLM) afin de résoudre la difficulté de généraliser les agents d'apprentissage par renforcement, due au manque de données de contrôle à l'échelle d'Internet. Nous nous concentrons plus particulièrement sur l'apprentissage par renforcement hors ligne et présentons une nouvelle méthodologie appelée optimisation par filtrage de sous-chemins (SFO). SFO résout le « puzzle » en utilisant des sous-chemins plutôt que le chemin entier, utilise le retour visuel du VLM pour générer des signaux de récompense non markoviens et utilise un schéma de réplication des actions de filtrage et de pondération plus simple mais plus efficace que les méthodes complexes basées sur RLHF. En particulier, la réplication des actions de filtrage de sous-chemins (SFBC) améliore la robustesse en intégrant un mécanisme de filtrage rétroactif qui supprime les sous-chemins avant la défaillance.