Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Découverte de compétences en monde ouvert à partir de démonstrations non segmentées

Created by
  • Haebom

Auteur

Jingwen Deng, Zihao Wang, Shaofei Cai, Anji Liu, Yitao Liang

Contour

Cet article présente une méthode d'apprentissage de compétences combinant des techniques fondamentales pour développer des agents capables d'effectuer diverses tâches en monde ouvert. Contrairement aux méthodes existantes qui reposent sur l'échantillonnage séquentiel ou l'étiquetage humain, nous développons une approche d'apprentissage auto-supervisé qui segmente de longues vidéos de démonstration en ligne non structurées en une série de segments sémantiquement cohérents. Inspirés par la théorie de la segmentation des événements cognitifs humains, nous proposons la détection des limites de compétences (SBD), un algorithme de segmentation vidéo temporelle non annoté qui détecte les limites de compétences dans les vidéos en exploitant les erreurs de prédiction de modèles de prédiction d'actions inconditionnelles pré-entraînés. Nous supposons qu'une augmentation significative de l'erreur de prédiction indique un changement dans la compétence exécutée. Des expériences avec Minecraft montrent que les segments générés par SBD améliorent la performance moyenne des politiques conditionnelles de 63,7 % et 52,1 % sur les tâches de compétences atomiques à court terme, et des agents hiérarchiques de 11,3 % et 20,8 % sur les tâches à long terme. Cette méthode permet d'entraîner les agents à suivre des instructions à l'aide de diverses vidéos YouTube.

Takeaways, Limitations

Takeaways:
Utilisation efficace de longues vidéos de démonstration non structurées grâce à une technique de segmentation vidéo basée sur l'apprentissage auto-supervisé.
L'algorithme SBD permet la détection automatique des limites technologiques significatives sans annotations.
Les expériences menées dans Minecraft démontrent une amélioration des performances des agents dans les tâches à court et à long terme.
Suggérer la possibilité d’un apprentissage par les agents en utilisant des données vidéo en ligne telles que YouTube.
Limitations:
Les performances du SBD peuvent dépendre des performances des modèles de prédiction d’actions pré-entraînés.
Ces résultats sont spécifiques à l’environnement Minecraft et des recherches supplémentaires sont nécessaires pour déterminer leur généralisabilité à d’autres environnements.
Une validation supplémentaire est nécessaire pour déterminer si la détection des limites technologiques basée sur les erreurs de prédiction est efficace pour tous les types de tâches et d’environnements.
👍