Bài báo này thảo luận về học tăng cường ngoại tuyến (ORL), cho phép học chính sách từ các tập dữ liệu được thu thập trước, chưa tối ưu mà không cần tương tác trực tuyến. Phương pháp này đặc biệt phù hợp với robot trong thế giới thực hoặc các tình huống quan trọng về an toàn, trong đó việc thu thập dữ liệu trực tuyến hoặc trình diễn của chuyên gia chậm, tốn kém và nguy hiểm. Hầu hết các nghiên cứu học tăng cường ngoại tuyến hiện có đều giả định rằng tập dữ liệu đã được gắn nhãn phần thưởng nhiệm vụ, nhưng điều này đòi hỏi nỗ lực đáng kể, đặc biệt là trong các tình huống thực tế khó xác định sự thật cơ bản. Trong bài báo này, chúng tôi đề xuất một hệ thống mới dựa trên RL-VLM-F, tự động tạo nhãn phần thưởng cho các tập dữ liệu ngoại tuyến bằng cách sử dụng phản hồi ưu tiên từ mô hình ngôn ngữ thị giác và mô tả văn bản về các nhiệm vụ. Phương pháp này huấn luyện các chính sách bằng RL ngoại tuyến với tập dữ liệu phần thưởng đã được gắn nhãn. Chúng tôi chứng minh khả năng ứng dụng của nó vào nhiệm vụ phức tạp là mặc quần áo cho một robot thực. Đầu tiên, chúng tôi học các hàm phần thưởng từ một tập dữ liệu ngoại tuyến chưa tối ưu bằng mô hình ngôn ngữ thị giác, sau đó sử dụng các phần thưởng đã học để phát triển một chính sách mặc quần áo hiệu quả thông qua học Q ngầm. Phương pháp này cũng hoạt động tốt trong các nhiệm vụ mô phỏng liên quan đến thao tác trên các vật thể cứng và biến dạng, vượt trội đáng kể so với các phương pháp cơ sở như sao chép hành vi và học tăng cường ngược (RL). Tóm lại, chúng tôi đề xuất một hệ thống mới cho phép tự động dán nhãn phần thưởng và học chính sách từ các tập dữ liệu ngoại tuyến chưa được dán nhãn và không tối ưu.