Cet article traite de l'apprentissage par renforcement hors ligne (ORL), qui permet l'apprentissage de politiques à partir d'ensembles de données pré-collectés et sous-optimaux, sans interaction en ligne. Cette approche est particulièrement adaptée aux robots réels ou aux scénarios critiques pour la sécurité, où la collecte de données en ligne ou les démonstrations d'experts sont lentes, coûteuses et dangereuses. La plupart des études d'apprentissage par renforcement hors ligne existantes supposent que l'ensemble de données est déjà étiqueté avec des récompenses pour les tâches, mais cela nécessite des efforts considérables, en particulier dans les scénarios réels où la vérité terrain est difficile à déterminer. Dans cet article, nous proposons un nouveau système basé sur RL-VLM-F, qui génère automatiquement des étiquettes de récompense pour les ensembles de données hors ligne, en utilisant le retour d'information sur les préférences d'un modèle de langage visuel et les descriptions textuelles des tâches. Cette méthode entraîne des politiques par RL hors ligne avec l'ensemble de données de récompense étiqueté. Nous démontrons son applicabilité à la tâche complexe d'habillage d'un robot réel. Nous apprenons d'abord les fonctions de récompense à partir d'un ensemble de données hors ligne sous-optimal à l'aide d'un modèle de langage visuel, puis utilisons les récompenses apprises pour développer une politique d'habillage efficace par apprentissage Q implicite. Il est également performant dans les tâches de simulation impliquant la manipulation d'objets rigides et déformables, surpassant largement les performances de référence telles que le clonage de comportement et l'apprentissage par renforcement inverse (RL). En résumé, nous proposons un nouveau système permettant l'étiquetage automatique des récompenses et l'apprentissage de politiques à partir d'ensembles de données hors ligne non étiquetés et sous-optimaux.