Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Chuyển đổi dần dần từ toán tử tối ưu Bellman sang toán tử Bellman trong học tăng cường trực tuyến

Created by
  • Haebom

Tác giả

Motoki Omura, Kazuki Ota, Takayuki Osa, Yusuke Mukuta, Tatsuya Harada

Phác thảo

Bài báo này tập trung vào các phương pháp học tăng cường trong không gian hành động liên tục. Các thuật toán học tăng cường trong không gian hành động liên tục hiện có sử dụng toán tử Bellman để mô hình hóa giá trị Q của chính sách hiện tại, nhưng không mô hình hóa hàm tối ưu. Điều này dẫn đến hiệu quả mẫu kém. Nghiên cứu này điều tra hiệu quả của việc tích hợp toán tử tối ưu Bellman vào khuôn khổ tác nhân-phê bình. Các thí nghiệm trong một môi trường đơn giản chứng minh rằng mô hình hóa tối ưu tăng tốc quá trình học nhưng lại đưa ra sai lệch ước tính quá mức. Để giải quyết vấn đề này, chúng tôi đề xuất một kỹ thuật ủ dần dần chuyển đổi từ toán tử tối ưu Bellman sang toán tử Bellman. Kết hợp với TD3 và SAC, phương pháp của chúng tôi vượt trội hơn các phương pháp hiện có trên nhiều tác vụ di chuyển và thao tác và thể hiện tính mạnh mẽ đối với các siêu tham số liên quan đến tối ưu. Mã có sẵn tại https://github.com/motokiomura/annealed-q-learning .

Takeaways, Limitations

Takeaways: Chúng tôi chứng minh rằng kỹ thuật ủ sử dụng toán tử tối ưu Bellman cải thiện hiệu quả mẫu trong học tăng cường không gian hành động liên tục và nâng cao hiệu suất của các thuật toán hiện có như TD3 và SAC. Điều này cải thiện tính mạnh mẽ đối với các siêu tham số liên quan đến tối ưu.
Limitations: Hiệu quả của phương pháp đề xuất đã được kiểm chứng dựa trên kết quả thực nghiệm trong một môi trường đơn giản. Do đó, cần có thêm các thí nghiệm trong các môi trường phức tạp và đa dạng hơn. Cần phân tích sâu hơn để xác định liệu kỹ thuật ủ có giải quyết hoàn toàn sai số ước lượng quá mức do sử dụng toán tử tối ưu Bellman hay không.
👍