Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Diễn viên-Nhà phê bình mềm phần thưởng trung bình

Created by
  • Haebom

Tác giả

Jacob Adamczyk, Volodymyr Makarenko, Stas Tiomkin, Rahul V. Kulkarni

Phác thảo

Bài báo này đề cập đến sự quan tâm ngày càng tăng gần đây về các công thức phần thưởng trung bình cho học tăng cường (RL) có thể giải quyết các vấn đề dài hạn mà không cần chiết khấu. Trong các thiết lập chiết khấu, các thuật toán điều chỉnh entropy đã được phát triển, chứng minh hiệu suất vượt trội so với các phương pháp xác định. Tuy nhiên, các thuật toán RL sâu nhắm đến các mục tiêu phần thưởng trung bình điều chỉnh entropy vẫn chưa được phát triển. Để giải quyết khoảng trống này, bài báo này đề xuất một thuật toán tác nhân-phê bình mềm phần thưởng trung bình. Chúng tôi xác thực phương pháp của mình bằng cách so sánh nó với các thuật toán phần thưởng trung bình hiện có trên các chuẩn RL tiêu chuẩn, đạt được hiệu suất vượt trội cho tiêu chí phần thưởng trung bình.

Takeaways, Limitations

Takeaways: Chúng tôi trình bày một thuật toán học tăng cường sâu mới (mô hình diễn viên-phê bình mềm trung bình-phần thưởng) để điều chỉnh entropy của mục tiêu trung bình-phần thưởng, chứng minh tính hiệu quả của công thức trung bình-phần thưởng bằng cách vượt trội hơn các thuật toán hiện có trên các chuẩn RL tiêu chuẩn. Chúng tôi trình bày một phương pháp mới để giải quyết vấn đề trung bình-phần thưởng bằng cách sử dụng khuôn khổ diễn viên-phê bình.
Limitations: Hiệu suất của thuật toán được trình bày có thể bị giới hạn ở một chuẩn mực cụ thể. Cần nghiên cứu thêm để xác định hiệu suất tổng quát của thuật toán trong nhiều môi trường khác nhau. Chưa có phân tích về chi phí tính toán và độ phức tạp của thuật toán.
👍