L'apprentissage par renforcement (RL) a connu un succès remarquable dans la résolution de problèmes décisionnels complexes, mais l'ininterprétabilité de ses processus décisionnels freine son adoption dans des domaines critiques. Les approches d'IA explicable (xAI) existantes échouent souvent à fournir des explications pertinentes aux agents RL, notamment parce qu'elles négligent la nature contrastive du raisonnement humain (répondre à des questions telles que « Pourquoi avez-vous choisi cette action plutôt qu'une autre ? »). Pour combler cette lacune, cet article propose $\textbf{VisionMask}$, un nouveau cadre d'apprentissage contrastif qui utilise des méthodes auto-supervisées pour entraîner les agents à générer des explications en comparant explicitement l'action choisie par l'agent à des actions alternatives dans un état donné. Des expériences dans divers environnements RL démontrent l'efficacité de VisionMask en termes de fidélité, de robustesse et de complexité. Les résultats démontrent que VisionMask améliore significativement la compréhension humaine du comportement des agents tout en maintenant la précision et la fidélité. Nous présentons également des exemples illustrant comment VisionMask peut être utilisé pour des analyses contre-empiriques. Cette recherche comble le fossé entre RL et xAI, ouvrant la voie à des systèmes RL plus sûrs et plus interprétables.