본 논문은 희소하거나 적대적인 보상 구조를 가진 환경에서 강화 학습(Reinforcement Learning, RL)의 탐색 문제를 다룬다. 특히, 훈련 전 심층 신경망 정책의 구조가 탐색에 어떻게 영향을 미치는지 이론적 및 실험적으로 연구한다. 간단한 모델을 사용하여 훈련되지 않은 정책에서 발리스틱(ballistic) 또는 확산(diffusive) 궤적을 생성하는 전략을 보여준다. 무한 너비 네트워크 이론과 연속 시간 극한을 사용하여 훈련되지 않은 정책이 상관된 행동을 반환하고 중요한 상태 방문 분포를 생성함을 보인다. 표준 아키텍처에 대한 해당 궤적의 분포를 논의하여 탐색 문제 해결을 위한 귀납적 편향에 대한 통찰력을 제공한다. 이 연구는 정책 초기화를 훈련 초기 단계의 탐색 행동을 이해하기 위한 설계 도구로 사용하는 이론적 및 실험적 프레임워크를 제시한다.