본 논문은 자기 지도 학습의 확장성을 강화 학습(RL)에 적용하는 연구를 다룹니다. 기존 RL 연구들이 주로 얕은 신경망(2-5층)을 사용한 것과 달리, 본 논문은 최대 1024층의 깊은 신경망을 사용하여 자기 지도 학습 기반 RL의 성능을 크게 향상시켰습니다. 시뮬레이션된 로보틱스(보행 및 조작) 작업에서, 제공된 목표 달성 확률을 극대화하는 방식으로 학습하는 비지도 목표 조건 설정에서 실험을 진행했습니다. 그 결과, 기존 방식 대비 2배에서 50배까지 성능 향상을 달성했으며, 모델의 깊이 증가는 성공률 향상뿐 아니라 학습된 행동의 질적 변화까지 야기함을 보였습니다.