본 논문은 자기 지도 학습(self-supervised learning)의 확장이 강화 학습(reinforcement learning, RL) 분야에서 이루어낸 성과를 연구한다. 특히, 네트워크 깊이가 중요한 요소임을 밝히며, 얕은 아키텍처(2-5 레이어)를 사용하는 기존 RL 연구와 달리 최대 1024 레이어까지의 깊이를 활용하여 성능 향상을 이끌어낸다. 비지도 목표 조건 설정 하에서 시뮬레이션된 로코모션 및 조작 작업을 평가했으며, 제안하는 접근 방식은 자기 지도 대조 RL 알고리즘의 성능을 2배에서 50배까지 향상시키고 다른 목표 조건 기준선을 능가했다.