본 논문은 심층 강화학습(DRL)에서 최적 정책을 무작위 네트워크 초기화로부터 학습하는 과정에 초점을 맞춥니다. DRL 훈련 규모가 커짐에 따라, DRL 정책 네트워크 가중치를 새로운 데이터 모달리티로 취급하고 잠재력을 탐색하는 것이 매력적이고 가능해집니다. 본 연구는 정책 학습 과정의 진화를 반영하는 과거 정책들의 네트워크 가중치 궤적(policy learning path)으로 표현되는 심층 강화학습의 정책 학습 경로에 집중합니다. 트랜스포머를 이용한 궤적 모델링의 아이디어를 활용하여, 자기회귀 방식으로 정책 네트워크 가중치를 처리하는 트랜스포머 기반 암시적 정책 학습기(TIPL)를 제안합니다. 독립적인 RL 훈련 시행을 통해 정책 학습 경로 데이터를 수집하고, 이를 사용하여 TIPL 모델을 훈련합니다. 실험을 통해 TIPL이 정책 학습의 암시적 동역학을 적합시키고 추론을 통해 정책 네트워크를 최적화할 수 있음을 보여줍니다.