Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Cấu trúc cơ bản nào trong hàm phần thưởng cho phép học phần thưởng thưa thớt hiệu quả?

Created by
  • Haebom

Tác giả

Ibne Farabi Shihab, Sanjeda Akter, Anuj Sharma

Phác thảo

Bài báo này trình bày một khuôn khổ học phần thưởng cấu trúc mới, Hoàn thành Ma trận Nhận thức Chính sách (PAMC), để giải quyết những thách thức của học tăng cường phần thưởng thưa thớt (RL). PAMC khai thác cấu trúc thưa thớt và ít chiều gần đúng của ma trận phần thưởng trong điều kiện lấy mẫu có thiên vị chính sách. Nó sử dụng trọng số nằm ngửa để chứng minh sự đảm bảo phục hồi và thiết lập một giới hạn lỗi-hối tiếc có trọng số chuyến thăm liên kết lỗi hoàn thành với hiệu suất điều khiển. Khi giả định yếu đi, PAMC sẽ mở rộng khoảng tin cậy để quay lại khám phá một cách an toàn và dừng thuật toán. Về mặt thực nghiệm, PAMC cải thiện hiệu suất mẫu trên các chuẩn Atari-26, DM Control, MetaWorld MT50, D4RL offline RL và RL cơ sở, đồng thời vượt trội hơn DrQ-v2, DreamerV3, Agent57, T-REX/D-REX và PrefPPO trong các so sánh chính quy hóa tính toán. Những kết quả này làm nổi bật PAMC như một công cụ thực tế và có nguyên tắc khi có phần thưởng cấu trúc và đóng vai trò là ví dụ cụ thể đầu tiên về góc nhìn học phần thưởng cấu trúc rộng hơn.

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh rằng hiệu quả mẫu của phương pháp học tăng cường phần thưởng thưa thớt có thể được cải thiện bằng cách khai thác cấu trúc thưa thớt + chiều thấp của ma trận phần thưởng ngay cả khi lấy mẫu theo chính sách thiên vị.
Chúng tôi trình bày cơ sở lý thuyết thông qua trọng số khuynh hướng nghịch đảo và ranh giới lỗi-hối tiếc theo lượt truy cập.
Chúng tôi trình bày những kết quả thử nghiệm vượt trội hơn các phương pháp hiện có trong nhiều tiêu chuẩn khác nhau.
Nó đưa ra một góc nhìn mới gọi là học phần thưởng có cấu trúc và cung cấp phương pháp cụ thể cho nó.
Limitations:
Nó đòi hỏi giả định rằng ma trận phần thưởng có cấu trúc thưa + chiều thấp và giả định này không phải lúc nào cũng được thỏa mãn.
Nếu giả định trở nên yếu, thuật toán sẽ dừng lại và quay lại khám phá một cách an toàn, nhưng điều này có thể dẫn đến giảm hiệu suất.
Kết quả thử nghiệm bị giới hạn ở một chuẩn mực cụ thể và hiệu suất có thể khác nhau trong các môi trường khác.
👍