강화학습(RL)은 복잡한 의사결정 문제 해결에 괄목할 만한 성공을 거두었지만, 의사결정 과정의 해석 불가능성으로 인해 중요한 영역에서의 채택이 저해되고 있습니다. 기존의 설명 가능한 AI(xAI) 접근 방식은 특히 인간 추론의 대조적 특성("왜 이 행동을 다른 행동 대신 선택했는가?"에 대한 답변)을 간과하기 때문에 RL 에이전트에 대한 의미 있는 설명을 제공하는 데 실패하는 경우가 많습니다. 이러한 간극을 해결하기 위해 본 논문에서는 자기 지도 방식을 사용하여 주어진 상태에서 에이전트가 선택한 행동과 대안적인 행동을 명시적으로 대조함으로써 설명을 생성하도록 훈련된, 대조 학습의 새로운 프레임워크인 $\textbf{VisionMask}$를 제안합니다. 다양한 RL 환경에서의 실험을 통해 충실성, 견고성 및 복잡성 측면에서 VisionMask의 효능을 입증합니다. 결과는 VisionMask가 정확성과 충실성을 유지하면서 에이전트 행동에 대한 인간의 이해를 크게 향상시킨다는 것을 보여줍니다. 또한, VisionMask가 반실증 분석에 사용될 수 있는 방법을 보여주는 예를 제시합니다. 이 연구는 RL과 xAI 간의 간극을 해소하여 더 안전하고 해석 가능한 RL 시스템을 위한 길을 열어줍니다.