Học tăng cường (RL) đã đạt được thành công đáng kể trong việc giải quyết các vấn đề ra quyết định phức tạp, nhưng tính khó diễn giải của các quy trình ra quyết định cản trở việc áp dụng nó trong các lĩnh vực quan trọng. Các phương pháp AI có thể giải thích (xAI) hiện có thường không cung cấp được những lời giải thích có ý nghĩa cho các tác nhân RL, đặc biệt là vì chúng bỏ qua bản chất tương phản của lý luận con người (trả lời các câu hỏi như "Tại sao bạn chọn hành động này thay vì hành động khác?"). Để giải quyết khoảng trống này, bài báo này đề xuất $\textbf{VisionMask}$, một khuôn khổ mới cho học tương phản, sử dụng các phương pháp tự giám sát để huấn luyện các tác nhân tạo ra lời giải thích bằng cách đối chiếu rõ ràng hành động đã chọn của tác nhân với các hành động thay thế trong một trạng thái nhất định. Các thí nghiệm trong các môi trường RL khác nhau chứng minh hiệu quả của VisionMask về độ trung thực, độ mạnh mẽ và độ phức tạp. Kết quả cho thấy VisionMask nâng cao đáng kể sự hiểu biết của con người về hành vi của tác nhân trong khi vẫn duy trì độ chính xác và độ trung thực. Chúng tôi cũng trình bày các ví dụ minh họa cách VisionMask có thể được sử dụng cho phân tích phản thực nghiệm. Nghiên cứu này thu hẹp khoảng cách giữa RL và xAI, mở đường cho các hệ thống RL an toàn hơn và dễ diễn giải hơn.