본 논문은 비지도 사전 학습을 강화 학습(RL)의 탐색 전략 개선에 적용하는 방법을 연구합니다. 기존의 비지도 사전 학습 방식은 작업 특정 데이터를 모방하는 미세 조정을 포함하지만, RL에서는 반복적인 자기 개선을 통해 해결책을 탐색하고 찾는 과정이 포함됩니다. 이를 위해 저자들은 비표지된 오프라인 궤적 데이터를 활용하여 효율적인 탐색 전략을 학습하는 SUPE(Skills from Unlabeled Prior data for Exploration) 방법을 제안합니다. SUPE는 변분 오토인코더(VAE)를 사용하여 저수준 기술을 추출하고, 낙관적인 보상과 고수준 행동 레이블을 사용하여 비표지된 궤적에 의사 레이블을 지정합니다. 이렇게 변환된 데이터는 고수준의 작업 관련 예시로 사용되어 새로운 것을 추구하는 행동을 장려합니다. 마지막으로, SUPE는 이러한 변환된 예시를 추가적인 오프 정책 데이터로 사용하여 사전 학습된 저수준 기술을 구성하여 효율적으로 탐색하는 고수준 정책을 학습합니다. 42개의 장기간, 희소 보상 작업에 대한 실험 결과, SUPE는 기존 전략을 꾸준히 능가하는 것으로 나타났습니다.