Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Học hỏi từ 10 bản demo: Học chính sách có thể tổng quát hóa và hiệu quả theo mẫu với khung khả năng chi trả định hướng

Created by
  • Haebom

Tác giả

Krishan Rana, Jad Abou-Chakra, Sourav Garg, Robert Lee, Ian Reid, Niko Suenderhauf

Phác thảo

Bài báo này nhấn mạnh rằng mặc dù học bắt chước cho phép robot hành xử thành thạo, nhưng nó lại gặp khó khăn với hiệu suất mẫu thấp và khả năng khái quát hóa hạn chế, khiến việc giải quyết các nhiệm vụ đa đối tượng dài hạn trở nên khó khăn. Các phương pháp hiện có đòi hỏi nhiều lần trình diễn để giải quyết các biến thể nhiệm vụ có thể xảy ra, khiến chúng tốn kém và không thực tế cho các ứng dụng trong thế giới thực. Nghiên cứu này giới thiệu các khung khả năng định hướng, một biểu diễn có cấu trúc của không gian trạng thái và hành động, để cải thiện khả năng khái quát hóa không gian và phạm trù, đồng thời huấn luyện các chính sách hiệu quả chỉ với 10 lần trình diễn. Quan trọng hơn, sự trừu tượng hóa này cho phép khái quát hóa thành phần của các chính sách con được huấn luyện độc lập để giải quyết các nhiệm vụ đa đối tượng dài hạn. Để tạo điều kiện thuận lợi cho việc chuyển đổi mượt mà giữa các chính sách con, chúng tôi giới thiệu khái niệm dự đoán tự tiến triển, được rút ra trực tiếp từ thời lượng trình diễn huấn luyện. Các thí nghiệm trên ba nhiệm vụ thực tế liên quan đến tương tác đa bước, đa đối tượng chứng minh rằng các chính sách này khái quát hóa mạnh mẽ đối với các hình dạng vật thể, hình dạng hình học và sắp xếp không gian chưa được nhìn thấy, mặc dù lượng dữ liệu ít, và đạt tỷ lệ thành công cao mà không cần dựa vào dữ liệu huấn luyện mở rộng.

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh rằng việc học chính sách hiệu quả chỉ có thể thực hiện được với một số lượng nhỏ bản demo (10) bằng cách sử dụng khung khả năng định hướng.
Cải thiện hiệu suất khái quát trong không gian và danh mục.
Giải quyết các nhiệm vụ dài hạn, nhiều đối tượng thông qua việc khái quát hóa mang tính xây dựng các chính sách phụ được đào tạo độc lập.
Dự đoán tiến trình tự thân cho phép chuyển đổi suôn sẻ giữa các chính sách phụ.
ĐạT được tỷ lệ thành công cao trong các nhiệm vụ thực tế và xác minh hiệu suất tổng quát.
Limitations:
Chỉ có kết quả thử nghiệm cho một số lượng hạn chế các nhiệm vụ thực tế (ba) được trình bày.
Cần nghiên cứu thêm để xác định hiệu suất tổng quát có thể được duy trì tốt như thế nào trong các môi trường và nhiệm vụ khác nhau.
Cần có thêm phân tích về độ chính xác và độ tin cậy của các dự đoán về sự tự tiến triển.
Thiếu phân tích về chi phí tính toán và độ phức tạp của phương pháp đề xuất.
👍