Cet article présente un nouveau cadre, DeGuV, visant à résoudre le problème de la généralisation des compétences acquises par les agents d'apprentissage par renforcement (RL) sur les entrées visuelles à de nouveaux environnements. DeGuV utilise un réseau de masques apprenables pour générer un masque à partir d'informations de profondeur qui ne conserve que les informations visuelles importantes et supprime les pixels inutiles. Cela permet à l'agent de se concentrer sur les caractéristiques clés, améliorant ainsi sa robustesse lors de l'augmentation des données. De plus, il intègre l'apprentissage contrastif et stabilise l'estimation de la valeur Q lors de l'augmentation, améliorant ainsi l'efficacité de l'échantillonnage et la stabilité de l'apprentissage. L'évaluation sur le benchmark RL-ViGen à l'aide du robot Franka Emika démontre que DeGuV surpasse les méthodes de pointe en termes de généralisation et d'efficacité de l'échantillonnage lors du transfert de la simulation à la réalité sans prise de vue, tout en améliorant l'interprétabilité en mettant en évidence les régions les plus pertinentes de l'entrée visuelle.