Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Tự động định hình phần thưởng từ dữ liệu ngoại tuyến phức tạp

Created by
  • Haebom

Tác giả

Mingxuan Li, Junzhe Zhang, Elias Bareinboim

Phác thảo

Bài báo này đề cập đến một thách thức cốt lõi trong trí tuệ nhân tạo: học chính sách hiệu quả để kiểm soát các tác nhân trong môi trường chưa biết và tối ưu hóa các số liệu hiệu suất. Các phương pháp học ngoài chính sách, chẳng hạn như học Q, cho phép người học đưa ra quyết định tối ưu dựa trên kinh nghiệm trong quá khứ. Bài báo này nghiên cứu việc học ngoài chính sách từ dữ liệu bị sai lệch trong các miền phức tạp, nhiều chiều, trong đó các biến gây nhiễu không quan sát được không thể loại trừ trước. Dựa trên Mạng Q sâu (DQN) nổi tiếng, chúng tôi đề xuất một thuật toán học tăng cường sâu mới mạnh mẽ đối với dữ liệu quan sát bị sai lệch gây nhiễu. Cụ thể, thuật toán cố gắng tìm một chính sách an toàn cho môi trường trường hợp xấu nhất tương thích với các quan sát. Chúng tôi áp dụng phương pháp được đề xuất cho mười hai trò chơi Atari bị nhiễu và chứng minh rằng phương pháp được đề xuất luôn vượt trội hơn DQN tiêu chuẩn trong tất cả các trò chơi mà các đầu vào được quan sát cho các chính sách hành động và mục tiêu không nhất quán và có sự hiện diện của các biến gây nhiễu không quan sát được.

Takeaways, Limitations

Takeaways: Chúng tôi trình bày một thuật toán mới giúp cải thiện hiệu suất của học tăng cường ngoài chính sách trong các môi trường phức tạp với các biến nhiễu chưa được quan sát. Thuật toán được đề xuất vượt trội hơn DQN thông thường trên các trò chơi Atari. Phương pháp tìm kiếm một chính sách an toàn cho các môi trường xấu nhất đã được chứng minh là hiệu quả trong việc tăng cường độ tin cậy chống lại sai lệch nhiễu.
Limitations: Việc đánh giá hiệu suất của thuật toán đề xuất chỉ giới hạn ở các trò chơi Atari, và khả năng tổng quát hóa của nó cho các loại môi trường hoặc vấn đề khác cần được nghiên cứu thêm. Các phương pháp tiếp cận giả định các kịch bản xấu nhất mà không mô hình hóa rõ ràng các biến nhiễu không quan sát được có thể dẫn đến các chính sách bảo thủ. Cần xác minh thêm về khả năng áp dụng và hiệu quả của nó trong bối cảnh thực tế.
👍