본 논문은 강화학습(RL) 에이전트의 시각적 입력에 대한 학습된 기술을 새로운 환경으로 일반화하는 문제를 해결하기 위해 DeGuV라는 새로운 프레임워크를 제시합니다. DeGuV는 학습 가능한 마스크 네트워크를 활용하여 깊이 정보로부터 중요한 시각 정보만 유지하고 불필요한 픽셀은 제거하는 마스크를 생성합니다. 이를 통해 에이전트는 핵심 특징에 집중하여 데이터 증강 하에서도 강건성을 향상시킵니다. 또한 대조 학습을 통합하고 증강 하에서 Q-값 추정을 안정화하여 샘플 효율성과 훈련 안정성을 더욱 향상시킵니다. Franka Emika 로봇을 사용하여 RL-ViGen 벤치마크에서 평가한 결과, DeGuV는 제로샷 시뮬레이션-실제 전이에서 일반화 및 샘플 효율성 모두에서 최첨단 방법을 능가하며, 시각적 입력에서 가장 관련성이 높은 영역을 강조하여 해석성을 향상시키는 것을 보여줍니다.