Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Thuật toán tập hợp an toàn ngầm định cho việc học tăng cường an toàn có thể chứng minh được

Created by
  • Haebom

Tác giả

Weiye Zhao, Feihan Li, Changliu Liu

Phác thảo

Bài báo này trình bày thuật toán tập an toàn ngầm định, một thuật toán kiểm soát an toàn không cần mô hình, đảm bảo an toàn cho các tác nhân học tăng cường sâu (DRL). Trong khi các phương pháp DRL hiện tại gặp khó khăn trong việc đảm bảo an toàn, thuật toán của chúng tôi tạo ra các chỉ số an toàn (chứng chỉ rào cản) và các luật kiểm soát an toàn chỉ sử dụng các hàm động hộp đen (ví dụ: mô phỏng song sinh kỹ thuật số). Về mặt lý thuyết, chúng tôi chứng minh sự hội tụ về một tập an toàn trong thời gian hữu hạn và bất biến hướng tới cho cả hệ thống liên tục và hệ thống thời gian rời rạc. Hơn nữa, chúng tôi chứng minh hiệu suất của mình trên chuẩn Safety Gym, đạt được phần thưởng tích lũy 95% ± 9%, vượt trội hơn phương pháp DRL an toàn hiện đại mà không vi phạm an toàn. Hơn nữa, chúng tôi chứng minh khả năng mở rộng sang các hệ thống đa chiều thông qua tính toán song song.

Takeaways, Limitations

Takeaways:
Một thuật toán mới được trình bày để đảm bảo an toàn cho các tác nhân DRL theo cách không cần mô hình.
Chứng minh về mặt lý thuyết sự an toàn và hội tụ
Hiệu suất tuyệt vời đã được xác minh trong tiêu chuẩn Safety Gym
Xác minh khả năng mở rộng cho các hệ thống có kích thước lớn
Limitations:
Cần phải xác nhận thêm về ứng dụng thực tế của thuật toán.
Cần có các nghiên cứu tổng quát cho nhiều ràng buộc an toàn khác nhau.
Cần phân tích thêm về độ phức tạp tính toán và hiệu quả của các thuật toán tập an toàn ngầm.
👍