Este artículo presenta un nuevo marco, DeGuV, para abordar el problema de generalizar las habilidades aprendidas de los agentes de aprendizaje por refuerzo (RL) sobre entradas visuales a nuevos entornos. DeGuV utiliza una red de máscaras aprendible para generar una máscara a partir de información de profundidad que retiene únicamente la información visual importante y elimina los píxeles innecesarios. Esto permite al agente centrarse en las características clave, mejorando la robustez bajo el aumento de datos. Además, incorpora aprendizaje contrastivo y estabiliza la estimación del valor Q bajo el aumento, mejorando aún más la eficiencia de la muestra y la estabilidad del entrenamiento. La evaluación en el banco de pruebas RL-ViGen utilizando el robot Franka Emika demuestra que DeGuV supera a los métodos de vanguardia tanto en generalización como en eficiencia de la muestra en la transferencia de simulación a realidad de disparo cero, a la vez que mejora la interpretabilidad al resaltar las regiones más relevantes de la entrada visual.