Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

ĐA dạng hóa các hành vi chính sách với sự tò mò về hành vi bên ngoài

Created by
  • Haebom

Tác giả

Zhenglin Wan, Xingrui Yu, David Mark Bossens, Yueming Lyu, Qing Guo, Flint Xiaofeng Fan, Yew Soon Ong, Ivor Tsang

Phác thảo

Bài báo này trình bày về Học tăng cường nghịch đảo Đa dạng Chất lượng (QD-IRL), một khuôn khổ mới tích hợp tối ưu hóa Đa dạng Chất lượng (QD) với Học tăng cường nghịch đảo (IRL) để khắc phục những hạn chế của học chính sách chuyên gia đơn lẻ và học các hành vi đa dạng và mạnh mẽ. Cụ thể, chúng tôi giới thiệu Tính tò mò hành vi ngoại lai (EBC), cung cấp thêm phần thưởng tò mò dựa trên tính mới lạ của một hành vi so với kho lưu trữ hành vi hiện có. Các thí nghiệm trên nhiều nhiệm vụ di chuyển của robot chứng minh rằng EBC cải thiện hiệu suất của các thuật toán QD-IRL như GAIL, VAIL và DiffAIL lên tới 185% và vượt trội hơn hiệu suất của chuyên gia tới 20% trong môi trường giống người. Hơn nữa, chúng tôi chứng minh rằng EBC có thể áp dụng cho các thuật toán học tăng cường QD dựa trên phân nhánh gradient và là một kỹ thuật chung giúp cải thiện đáng kể hiệu suất. Mã nguồn có sẵn trên GitHub.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày QD-IRL và EBC, những khuôn khổ mới khắc phục được những hạn chế của việc học chính sách của một chuyên gia và học được những hành vi đa dạng và mạnh mẽ.
Kiểm chứng thực nghiệm việc khám phá và cải thiện hiệu suất của nhiều hành vi chuyển động khác nhau của robot thông qua EBC.
Trình bày kỹ thuật chung áp dụng cho nhiều thuật toán IRL và QD-RL.
ĐạT được kết quả vượt trội hơn hiệu suất của chuyên gia.
ĐảM bảo khả năng tái tạo và mở rộng thông qua việc công bố mã nguồn.
Limitations:
Hiệu quả của EBC có thể phụ thuộc vào môi trường và thuật toán cụ thể.
Cần có thêm nghiên cứu về cách quản lý kho lưu trữ hành vi quy mô lớn và cách thực hiện so sánh hiệu quả.
Cần có sự xác nhận và đảm bảo an toàn bổ sung cho các ứng dụng thực tế.
Cần nghiên cứu thêm về việc tối ưu hóa và khái quát hóa thiết kế bù EBC.
👍