본 논문은 오픈월드 환경에서 다양한 작업을 수행할 수 있는 에이전트 개발을 위해 기본 기술을 결합하여 기술을 학습하는 방법을 제시합니다. 기존의 시퀀스 샘플링이나 사람의 라벨링에 의존하는 방법과 달리, 긴 비정형 온라인 데모 비디오를 의미적으로 일관된 일련의 세그먼트로 분할하는 자기 지도 학습 기반 접근 방식을 개발했습니다. 인간의 인지적 이벤트 분할 이론에서 영감을 얻어, 사전 훈련된 무조건적 행동 예측 모델의 예측 오류를 활용하여 비디오에서 기술 경계를 감지하는 주석 없는 시간적 비디오 분할 알고리즘인 Skill Boundary Detection (SBD)을 제안합니다. 예측 오류의 상당한 증가는 실행 중인 기술의 변화를 나타낸다는 가정에 기반합니다. Minecraft를 사용하여 실험한 결과, SBD가 생성한 세그먼트는 단기 원자 기술 작업에서 조건부 정책의 평균 성능을 63.7%와 52.1% 향상시켰고, 장기 작업에서 계층적 에이전트의 성능을 11.3%와 20.8% 향상시켰습니다. 본 방법은 다양한 YouTube 비디오를 활용하여 지시 사항을 따르는 에이전트를 훈련할 수 있습니다.