본 논문은 온라인 데모 영상을 활용하여 오픈 월드 환경에서 에이전트의 다양한 작업 수행 능력을 향상시키는 자기 지도 학습 기반 방법을 제시합니다. 기존의 시퀀스 샘플링이나 사람의 라벨링에 의존하는 방법과 달리, Skill Boundary Detection (SBD) 알고리즘을 통해 사전 훈련된 행동 예측 모델의 예측 오류를 활용하여 긴 비디오를 의미론적이고 기술적으로 일관된 여러 세그먼트로 자동 분할합니다. 예측 오류의 상당한 증가는 수행 중인 기술의 변화를 나타낸다는 가정하에, 마인크래프트 게임 영상을 이용하여 SBD의 효과를 검증하였으며, 단기 원자 기술 작업에서 조건부 정책의 평균 성능을 63.7%와 52.1% 향상시켰고, 장기 작업에서 계층적 에이전트의 성능을 11.3%와 20.8% 향상시켰습니다. 본 방법은 다양한 YouTube 영상을 활용하여 지시 사항을 따르는 에이전트를 훈련하는 데 활용될 수 있습니다.