Este artículo analiza el aprendizaje por refuerzo fuera de línea (ARL), que permite el aprendizaje de políticas a partir de conjuntos de datos precolectados y subóptimos sin interacción en línea. Este enfoque es especialmente adecuado para robots reales o escenarios críticos para la seguridad donde la recolección de datos en línea o las demostraciones de expertos son lentas, costosas y peligrosas. La mayoría de los estudios existentes de AR fuera de línea asumen que el conjunto de datos ya está etiquetado con recompensas de tarea, pero esto requiere un esfuerzo significativo, especialmente en escenarios reales donde la verdad fundamental es difícil de determinar. En este artículo, proponemos un sistema novedoso basado en RL-VLM-F, que genera automáticamente etiquetas de recompensa para conjuntos de datos fuera de línea utilizando la retroalimentación de preferencias de un modelo de visión-lenguaje y descripciones textuales de tareas. Este método entrena políticas utilizando AR fuera de línea con el conjunto de datos de recompensa etiquetado. Demostramos su aplicabilidad a la compleja tarea de vestir un robot real. Primero, aprendemos las funciones de recompensa de un conjunto de datos fuera de línea subóptimo utilizando un modelo de visión-lenguaje, y luego usamos las recompensas aprendidas para desarrollar una política de vestir efectiva mediante aprendizaje Q implícito. También ofrece un buen rendimiento en tareas de simulación que implican la manipulación de objetos rígidos y deformables, superando significativamente las líneas de base, como la clonación de comportamiento y el aprendizaje por refuerzo inverso (RL). En resumen, proponemos un sistema novedoso que permite el etiquetado automático de recompensas y el aprendizaje de políticas a partir de conjuntos de datos fuera de línea subóptimos y sin etiquetar.