強化学習(RL)は複雑な意思決定問題解決に大きな成功を収めましたが、意思決定過程の解釈不可能性により重要な領域での採用が阻害されています。従来の説明可能なAI(xAI)アプローチは、特に人間の推論の対照的特性(「なぜこの行動を他の行動の代わりに選択したのか」への答え)を見落とすため、RLエージェントの意味のある説明を提供することに失敗することがよくあります。このギャップを解決するために、この論文では、自己指導スキームを使用して、特定の状態でエージェントが選択した行動と代替行動を明示的に照合することによって説明を生成するように訓練された、対照学習の新しいフレームワークである$\textbf{VisionMask}$を提案します。さまざまなRL環境での実験により、忠実性、堅牢性、複雑さの観点からVisionMaskの有効性が証明されます。結果は,VisionMaskが正確性と忠実性を維持しながら,エージェントの行動に対する人間の理解を大いに改善することを示した。また、VisionMaskが反実証分析に使用できる方法を示す例を示します。この研究は、RLとxAIの間のギャップを解消し、より安全で解釈可能なRLシステムのための道を開きます。