Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Một chút tự do có thể tạo nên bước tiến dài: Thuật toán cổ điển và lượng tử cho học tăng cường theo mô hình tạo sinh

Created by
  • Haebom

Tác giả

Andris Ambainis, Joao F. Doriguello, Debbie Lim

Phác thảo

Bài báo này đề xuất các thuật toán trực tuyến cổ điển và lượng tử mới cho các quy trình quyết định Markov phần thưởng trung bình (MDP) hữu hạn và vô hạn. Thuật toán được đề xuất dựa trên mô hình học tăng cường (RL) kết hợp khám phá-sinh sản, trong đó các tác nhân có thể tự do tương tác với môi trường, đôi khi thông qua lấy mẫu sinh sản (tức là truy cập vào một "trình mô phỏng"). Bằng cách sử dụng cả thuật toán cổ điển và lượng tử để ước tính các chính sách tối ưu trong các mô hình sinh sản, chúng tôi chứng minh rằng bằng cách tính toán trực tiếp và sử dụng các chính sách tối ưu, chúng tôi tránh được một số mô hình RL, chẳng hạn như "lạc quan trong điều kiện bất định" và "lấy mẫu hậu nghiệm", và thu được các giới hạn hối tiếc tốt hơn so với các nghiên cứu trước đây. Đối với các MDP hữu hạn, thuật toán lượng tử thu được một giới hạn hối tiếc chỉ phụ thuộc logarit vào số bước thời gian T, do đó vượt qua giới hạn cổ điển $O(\sqrt{T})$. Điều này phù hợp với sự phụ thuộc thời gian của các nghiên cứu lượng tử trước đây của Ganguly và cộng sự (arXiv'23) và Zhong và cộng sự. (ICML'24), nhưng với sự phụ thuộc được cải thiện vào các tham số khác, chẳng hạn như kích thước không gian trạng thái S và kích thước không gian hành động A. Đối với các MDP chân trời vô hạn, ranh giới cổ điển và lượng tử vẫn duy trì sự phụ thuộc $O(\sqrt{T})$, nhưng có hệ số S và A tốt hơn. Tuy nhiên, chúng tôi đề xuất một phép đo hối tiếc mới cho các MDP chân trời vô hạn, chứng minh rằng các thuật toán lượng tử có hối tiếc $\operatorname{poly}\log{T}$ tốt hơn theo cấp số nhân so với các thuật toán cổ điển. Cuối cùng, chúng tôi tổng quát hóa tất cả các kết quả thành không gian trạng thái compact.

Takeaways, Limitations

_____T24707____-:
Chúng tôi trình bày một thuật toán lượng tử vượt qua giới hạn cổ điển $O(\sqrt{T})$ trong MDP có chân trời hữu hạn.
Tránh mô hình của các thuật toán học tăng cường hiện có (lạc quan, lấy mẫu sau) và tính toán trực tiếp chính sách tối ưu để cải thiện ranh giới hối tiếc.
Một thước đo hối tiếc mới cho MDP có đường chân trời vô hạn và đạt được $\operatorname{poly}\log{T}$ hối tiếc cho các thuật toán lượng tử.
Tổng quát hóa kết quả thành không gian trạng thái nhỏ gọn.
Limitations:
Giả định khả năng tiếp cận các mô hình tạo sinh (mô phỏng). Cần nghiên cứu thêm để xác định khả năng ứng dụng của chúng trong môi trường thực tế.
Cần có thêm nghiên cứu về việc triển khai thực tế và đánh giá hiệu suất của các thuật toán lượng tử.
Tính tối ưu cho một thiết lập vấn đề cụ thể có thể không được đảm bảo. (Ngầm định Limitations)
👍