Cet article présente une méthode d'apprentissage de compétences combinant des techniques fondamentales pour développer des agents capables d'effectuer diverses tâches en monde ouvert. Contrairement aux méthodes existantes qui reposent sur l'échantillonnage séquentiel ou l'étiquetage humain, nous développons une approche d'apprentissage auto-supervisé qui segmente de longues vidéos de démonstration en ligne non structurées en une série de segments sémantiquement cohérents. Inspirés par la théorie de la segmentation des événements cognitifs humains, nous proposons la détection des limites de compétences (SBD), un algorithme de segmentation vidéo temporelle non annoté qui détecte les limites de compétences dans les vidéos en exploitant les erreurs de prédiction de modèles de prédiction d'actions inconditionnelles pré-entraînés. Nous supposons qu'une augmentation significative de l'erreur de prédiction indique un changement dans la compétence exécutée. Des expériences avec Minecraft montrent que les segments générés par SBD améliorent la performance moyenne des politiques conditionnelles de 63,7 % et 52,1 % sur les tâches de compétences atomiques à court terme, et des agents hiérarchiques de 11,3 % et 20,8 % sur les tâches à long terme. Cette méthode permet d'entraîner les agents à suivre des instructions à l'aide de diverses vidéos YouTube.