Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Chính quy hóa hành vi đối xứng thông qua mở rộng Taylor của tính đối xứng

Created by
  • Haebom

Tác giả

Lingwei Zhu, Zheng Chen, Han Wang, Yukie Nagai

Phác thảo

Bài báo này trình bày một khuôn khổ học tăng cường ngoại tuyến mới bằng cách đưa phân kỳ đối xứng vào tối ưu hóa chính sách điều chỉnh hành vi (BRPO). Các phương pháp hiện có tập trung vào phân kỳ bất đối xứng, chẳng hạn như KL, để có được các chính sách chính quy hóa phân tích và các mục tiêu tối thiểu hóa thực tế. Bài báo này cho thấy phân kỳ đối xứng không cho phép các chính sách chính quy hóa phân tích như một chiến lược chính quy hóa và có thể dẫn đến các vấn đề số học dưới dạng tổn thất. Để giải quyết những vấn đề này, chúng tôi sử dụng chuỗi Taylor của phân kỳ $f$. Cụ thể, chúng tôi chứng minh rằng các chính sách phân tích có thể thu được thông qua một chuỗi hữu hạn. Đối với tổn thất, phân kỳ đối xứng có thể được phân tích thành một số hạng bất đối xứng và một số hạng đối xứng có điều kiện, và số hạng sau được khai triển Taylor để giảm bớt các vấn đề số học. Do đó, chúng tôi đề xuất thuật toán Đối xứng $f$ Actor-Critic (S$f$-AC), thuật toán BRPO thực tế đầu tiên sử dụng phân kỳ đối xứng. Xấp xỉ phân phối và kết quả thực nghiệm MuJoCo xác nhận rằng S$f$-AC đạt được hiệu suất cạnh tranh.

Takeaways, Limitations

Takeaways: Một thuật toán học tăng cường ngoại tuyến mới, S$f$-AC, sử dụng phân kỳ đối xứng được đề xuất. Thuật toán này khắc phục được những hạn chế của thuật toán BRPO hiện có và chứng minh được hiệu suất cạnh tranh. Một giải pháp số sử dụng chuỗi Taylor của phân kỳ $f$ cũng được trình bày.
Limitations: Cần có thêm các thí nghiệm để đánh giá hiệu suất tổng quát của phương pháp đề xuất. Cần có thêm các đánh giá hiệu suất trên nhiều môi trường và tác vụ khác nhau. Không có hướng dẫn rõ ràng về việc chọn thứ tự của chuỗi Taylor.
👍