El aprendizaje por refuerzo (AR) ha alcanzado un éxito notable en la resolución de problemas complejos de toma de decisiones, pero la imposibilidad de interpretar sus procesos dificulta su adopción en ámbitos críticos. Los enfoques existentes de IA explicable (xAI) a menudo no proporcionan explicaciones significativas para los agentes de AR, en particular porque ignoran la naturaleza contrastiva del razonamiento humano (responder a preguntas como "¿Por qué elegiste esta acción en lugar de otra?"). Para abordar esta deficiencia, este artículo propone $\textbf{VisionMask}$, un nuevo marco de aprendizaje contrastivo que utiliza métodos autosupervisados para entrenar a los agentes a generar explicaciones contrastando explícitamente la acción elegida por el agente con acciones alternativas en un estado dado. Experimentos en diversos entornos de AR demuestran la eficacia de VisionMask en términos de fidelidad, robustez y complejidad. Los resultados demuestran que VisionMask mejora significativamente la comprensión humana del comportamiento del agente, manteniendo la precisión y la fidelidad. También presentamos ejemplos que demuestran cómo VisionMask puede utilizarse para el análisis contraempírico. Esta investigación cierra la brecha entre RL y xAI, allanando el camino para sistemas de RL más seguros e interpretables.