Bài báo này đề cập đến một thách thức cốt lõi trong trí tuệ nhân tạo: học chính sách hiệu quả để kiểm soát các tác nhân trong môi trường chưa biết và tối ưu hóa các số liệu hiệu suất. Các phương pháp học ngoài chính sách, chẳng hạn như học Q, cho phép người học đưa ra quyết định tối ưu dựa trên kinh nghiệm trong quá khứ. Bài báo này nghiên cứu việc học ngoài chính sách từ dữ liệu bị sai lệch trong các miền phức tạp, nhiều chiều, trong đó các biến gây nhiễu không quan sát được không thể loại trừ trước. Dựa trên Mạng Q sâu (DQN) nổi tiếng, chúng tôi đề xuất một thuật toán học tăng cường sâu mới mạnh mẽ đối với dữ liệu quan sát bị sai lệch gây nhiễu. Cụ thể, thuật toán cố gắng tìm một chính sách an toàn cho môi trường trường hợp xấu nhất tương thích với các quan sát. Chúng tôi áp dụng phương pháp được đề xuất cho mười hai trò chơi Atari bị nhiễu và chứng minh rằng phương pháp được đề xuất luôn vượt trội hơn DQN tiêu chuẩn trong tất cả các trò chơi mà các đầu vào được quan sát cho các chính sách hành động và mục tiêu không nhất quán và có sự hiện diện của các biến gây nhiễu không quan sát được.