Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Khám phá dựa trên dữ liệu cho một lớp các vấn đề học tăng cường tuyến tính-bậc hai liên tục không xác định thời gian

Created by
  • Haebom

Tác giả

Yilie Huang, Xun Yu Chu

Phác thảo

Bài báo này nghiên cứu học tăng cường (RL) cho một lớp bài toán tương tự như các bài toán điều khiển tuyến tính bậc hai ngẫu nhiên liên tục (LQ) đã được thảo luận trong Huang và cộng sự (2024). Trạng thái là một bài toán có giá trị vô hướng, và tính biến thiên phụ thuộc vào cả trạng thái và điều khiển khi không có phần thưởng điều khiển thực thi. Trong bài báo này, chúng tôi đề xuất một cơ chế tìm kiếm không mô hình, dựa trên dữ liệu, điều chỉnh một cách thích ứng việc điều chỉnh entropy của tác nhân phê bình và sự phân kỳ chính sách của tác nhân. Không giống như các lịch trình tìm kiếm cố định hoặc xác định được sử dụng trong các nghiên cứu trước đây (Huang và cộng sự, 2024), phương pháp tìm kiếm thích ứng được đề xuất cải thiện hiệu quả học tập với các điều chỉnh tối thiểu. Mặc dù linh hoạt, phương pháp của chúng tôi đạt được một giới hạn hối tiếc gần như tuyến tính phù hợp với kết quả tốt nhất không mô hình cho lớp bài toán LQ này, vốn trước đây chỉ được rút ra với các lịch trình tìm kiếm cố định. Các thí nghiệm số cho thấy tìm kiếm thích ứng tăng tốc độ hội tụ và cải thiện hiệu suất hối tiếc so với các phương pháp dựa trên mô hình và không dựa trên mô hình thích ứng.

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh rằng hiệu quả học tập của phương pháp học tăng cường có thể được cải thiện thông qua cơ chế tìm kiếm thích ứng.
ĐạT được ranh giới hối tiếc bán tuyến tính tiên tiến với những điều chỉnh tối thiểu.
Đã Chứng minh bằng thực nghiệm sự cải thiện về tốc độ hội tụ và cải thiện hiệu suất hối tiếc so với các phương pháp không thích ứng.
Limitations:
Hiện tại chỉ áp dụng cho một số loại vấn đề LQ nhất định không có trạng thái giá trị vô hướng và không có phần thưởng kiểm soát thực thi.
Cần nghiên cứu thêm để xác định khả năng tổng quát hóa cho các hệ thống phức tạp hơn hoặc các bối cảnh vấn đề đa dạng hơn.
Hạn chế của phân tích hiệu suất lý thuyết của cơ chế tìm kiếm thích ứng được đề xuất.
👍