Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Học tăng cường ngoại tuyến trong thế giới thực từ phản hồi mô hình ngôn ngữ thị giác

Created by
  • Haebom

Tác giả

Sreyas Venkataraman,Yufei Wang,Ziyu Wang,Navin Sriram Ravie,Zackory Erickson,David Held

Phác thảo

Bài báo này thảo luận về học tăng cường ngoại tuyến (ORL), cho phép học chính sách từ các tập dữ liệu được thu thập trước, chưa tối ưu mà không cần tương tác trực tuyến. Phương pháp này đặc biệt phù hợp với robot trong thế giới thực hoặc các tình huống quan trọng về an toàn, trong đó việc thu thập dữ liệu trực tuyến hoặc trình diễn của chuyên gia chậm, tốn kém và nguy hiểm. Hầu hết các nghiên cứu học tăng cường ngoại tuyến hiện có đều giả định rằng tập dữ liệu đã được gắn nhãn phần thưởng nhiệm vụ, nhưng điều này đòi hỏi nỗ lực đáng kể, đặc biệt là trong các tình huống thực tế khó xác định sự thật cơ bản. Trong bài báo này, chúng tôi đề xuất một hệ thống mới dựa trên RL-VLM-F, tự động tạo nhãn phần thưởng cho các tập dữ liệu ngoại tuyến bằng cách sử dụng phản hồi ưu tiên từ mô hình ngôn ngữ thị giác và mô tả văn bản về các nhiệm vụ. Phương pháp này huấn luyện các chính sách bằng RL ngoại tuyến với tập dữ liệu phần thưởng đã được gắn nhãn. Chúng tôi chứng minh khả năng ứng dụng của nó vào nhiệm vụ phức tạp là mặc quần áo cho một robot thực. Đầu tiên, chúng tôi học các hàm phần thưởng từ một tập dữ liệu ngoại tuyến chưa tối ưu bằng mô hình ngôn ngữ thị giác, sau đó sử dụng các phần thưởng đã học để phát triển một chính sách mặc quần áo hiệu quả thông qua học Q ngầm. Phương pháp này cũng hoạt động tốt trong các nhiệm vụ mô phỏng liên quan đến thao tác trên các vật thể cứng và biến dạng, vượt trội đáng kể so với các phương pháp cơ sở như sao chép hành vi và học tăng cường ngược (RL). Tóm lại, chúng tôi đề xuất một hệ thống mới cho phép tự động dán nhãn phần thưởng và học chính sách từ các tập dữ liệu ngoại tuyến chưa được dán nhãn và không tối ưu.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một phương pháp mới để tự động tạo nhãn phần thưởng cho các tập dữ liệu ngoại tuyến bằng cách sử dụng các mô hình ngôn ngữ thị giác, do đó tăng khả năng ứng dụng thực tế của việc học tăng cường ngoại tuyến.
Phương pháp này vượt trội hơn các phương pháp hiện có trong cả nhiệm vụ thay đồ cho robot thực tế và nhiệm vụ mô phỏng.
Chúng tôi chứng minh tính hiệu quả của việc học tăng cường ngoại tuyến đối với các nhiệm vụ phức tạp.
Limitations:
ĐIều này phụ thuộc vào hiệu suất của mô hình ngôn ngữ thị giác và sự suy giảm hiệu suất của mô hình có thể ảnh hưởng đến hiệu suất của toàn bộ hệ thống.
Cần phải xác nhận thêm khả năng khái quát hóa của mô hình ngôn ngữ thị giác được sử dụng.
Cần có nghiên cứu để cải thiện hơn nữa khả năng khái quát hóa của việc học chức năng phần thưởng cho các nhiệm vụ cụ thể.
Hiệu suất có thể thay đổi tùy thuộc vào tính đa dạng và phức tạp của các tập dữ liệu thực tế.
👍