본 논문은 자가 지도 학습의 확장성을 강화 학습(RL)으로 확장하는 연구에 관한 논문입니다. 기존 RL 연구들이 주로 얕은 네트워크 구조(2~5층)에 의존해 온 것과 달리, 본 논문에서는 1024층에 이르는 깊은 네트워크를 사용하여 자가 지도 방식의 RL의 확장성을 크게 향상시켰습니다. 데모나 보상 없이 목표 달성 확률을 극대화하도록 학습하는 비지도 목표 조건 설정에서, 시뮬레이션된 로봇 이동 및 조작 작업을 통해 성능을 2배에서 50배까지 향상시켰습니다. 모델의 깊이 증가는 성공률 향상뿐 아니라 학습된 행동의 질적 변화도 가져왔습니다.