본 논문은 부분적으로 관측 가능한 환경에서 강화 학습(RL)의 핵심 과제 중 하나인 과거 상황의 좋은 표현 학습에 대해 다룹니다. 자기 예측 보조 작업이 완전히 관측 가능한 환경에서 성능 향상에 효과적임이 입증되었지만, 부분 관측 가능성 환경에서는 아직 충분히 연구되지 않았습니다. 본 연구는 특히 장기 의존성을 가진 환경에서 미래 예측(다음 단계 관측값 예측)을 보조 작업으로 활용한 자기 예측 표현 학습의 효과를 실험적으로 검증합니다. 미래 예측만으로도 강력한 RL 성능을 가능하게 하는 표현을 생성할 수 있다는 가설을 검증하기 위해, 표현 학습과 강화 학습을 명시적으로 분리하는 $\texttt{DRL}^2$ 접근 방식을 제시하고, 장기 메모리를 필요로 하는 여러 벤치마크에서 end-to-end 학습 방식과 비교합니다. 실험 결과는 다양한 네트워크 구조에서 가설이 성립함을 보여주며, 미래 예측 성능이 표현의 질을 나타내는 신뢰할 수 있는 지표이며 RL 성능 향상에 기여한다는 것을 강화합니다.