Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

IRL-VLA: Đào tạo Chính sách Tầm nhìn-Ngôn ngữ-Hành động thông qua Mô hình Thế giới Phần thưởng

Created by
  • Haebom

Tác giả

An Khánh Jiang, Yu Gao, Yiru Wang, Zhigang Sun, Shuo Wang, Yuwen Heng, Hao Sun, Shichen Tang, Lijuan Zhu, Jinhao Chai, Jijun Wang, Zichong Gu, Hao Jiang, Li Sun

Phác thảo

Bài báo này trình bày IRL-VLA để giải quyết hai thách thức chính của các mô hình Tầm nhìn-Ngôn ngữ-Hành động (VLA) dành cho xe tự hành: hiệu suất hạn chế của các kiến trúc VLA dựa trên học tập mô phỏng hiện có trong môi trường vòng hở và những thách thức của học tập vòng kín, vốn phụ thuộc rất nhiều vào mô phỏng cảm biến có độ trung thực cao. IRL-VLA là một khuôn khổ học tăng cường vòng kín kết hợp mô hình thế giới phần thưởng nhẹ dựa trên học tăng cường ngược (IRL) với phương pháp VLA tự xây dựng. Bao gồm ba bước, khuôn khổ này trước tiên huấn luyện trước các chính sách VLA thông qua học tập mô phỏng. Ở bước thứ hai, nó xây dựng một mô hình thế giới phần thưởng nhẹ thông qua IRL, cho phép tính toán phần thưởng vòng kín hiệu quả. Cuối cùng, nó thiết kế một mô hình học tăng cường hướng dẫn bởi mô hình thế giới phần thưởng chuyên biệt bằng cách sử dụng Tối ưu hóa Chính sách Gần (PPO) để cân bằng hiệu quả giữa an toàn, sự thoải mái và hiệu quả giao thông. Nó đạt được hiệu suất tiên tiến trên điểm chuẩn lái xe đầu cuối NAVSIM v2 và được xếp hạng nhất trong Thử thách Lái xe Tự động CVPR2025.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một khuôn khổ VLA mới (IRL-VLA) giúp tăng cường hiệu quả của học tăng cường vòng kín bằng cách sử dụng mô hình thế giới phần thưởng nhẹ dựa trên học tăng cường ngược.
Cải thiện hiệu suất lái xe tự động bằng cách kết hợp học tập bắt chước, học tập tăng cường ngược và học tập tăng cường dựa trên PPO để cân bằng giữa sự an toàn, sự thoải mái và hiệu quả.
Hiệu suất tuyệt vời đã được xác minh trong tiêu chuẩn NAVSIM v2 và Thử thách lái xe tự động CVPR2025.
Góp phần thúc đẩy nghiên cứu của VLA trong lĩnh vực lái xe tự động vòng kín.
Limitations:
Cần đánh giá thêm về hiệu suất tổng quát của khuôn khổ IRL-VLA được đề xuất.
Cần có thêm nghiên cứu để xác minh hiệu suất và đảm bảo an toàn trong môi trường thực tế.
Thiếu mô tả chi tiết về quá trình thiết kế và học tập của mô hình thế giới phần thưởng nhẹ.
Cần có thêm nghiên cứu về khả năng thích ứng với nhiều môi trường và tình huống khác nhau.
👍