Bài báo này trình bày một khuôn khổ mới, DeGuV, để giải quyết vấn đề khái quát hóa các kỹ năng đã học của các tác nhân học tăng cường (RL) về các đầu vào trực quan vào các môi trường mới. DeGuV sử dụng một mạng mặt nạ có thể học được để tạo ra một mặt nạ từ thông tin chiều sâu chỉ giữ lại thông tin trực quan quan trọng và loại bỏ các pixel không cần thiết. Điều này cho phép tác nhân tập trung vào các tính năng chính, cải thiện độ mạnh mẽ khi tăng cường dữ liệu. Hơn nữa, nó kết hợp học tương phản và ổn định ước tính giá trị Q khi tăng cường, cải thiện hơn nữa hiệu quả mẫu và tính ổn định của quá trình huấn luyện. Đánh giá trên chuẩn RL-ViGen sử dụng robot Franka Emika chứng minh rằng DeGuV vượt trội hơn các phương pháp tiên tiến về cả khả năng khái quát hóa và hiệu quả mẫu trong quá trình chuyển đổi từ mô phỏng sang thực tế không cần xử lý, đồng thời tăng cường khả năng diễn giải bằng cách làm nổi bật các vùng có liên quan nhất của đầu vào trực quan.