Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Apprentissage à partir de 10 démos : Apprentissage de politiques généralisable et efficace en termes d'échantillons avec des cadres d'affordance orientés

Created by
  • Haebom

Auteur

Krishan Rana, Jad Abou-Chakra, Sourav Garg, Robert Lee, Ian Reid, Niko Suenderhauf

Contour

Cet article souligne que si l'apprentissage par imitation permet un comportement robotique qualifié, il souffre d'une faible efficacité d'échantillonnage et d'une généralisation limitée, ce qui complique la gestion de tâches multi-objets à long terme. Les méthodes existantes nécessitent de nombreuses démonstrations pour appréhender les variations possibles des tâches, ce qui les rend coûteuses et peu pratiques pour des applications concrètes. Cette étude introduit des cadres d'affordance orientés, une représentation structurée des espaces d'état et d'action, pour améliorer la généralisation spatiale et catégorielle et entraîner efficacement des politiques avec seulement 10 démonstrations. Plus important encore, cette abstraction permet la généralisation compositionnelle de sous-politiques entraînées indépendamment pour gérer des tâches multi-objets à long terme. Pour faciliter les transitions fluides entre les sous-politiques, nous introduisons le concept de prédiction d'auto-progression, dérivé directement de la durée des démonstrations d'entraînement. Des expériences sur trois tâches concrètes impliquant des interactions multi-objets à plusieurs étapes démontrent que les politiques se généralisent de manière robuste aux apparences d'objets invisibles, aux formes géométriques et aux arrangements spatiaux, malgré une faible quantité de données, et atteignent des taux de réussite élevés sans nécessiter de données d'entraînement volumineuses.

Takeaways, Limitations

Takeaways:
Nous démontrons qu’un apprentissage efficace des politiques est possible avec seulement un petit nombre de démos (10) en utilisant le cadre d’affordance directionnelle.
Amélioration des performances de généralisation dans l'espace et les catégories.
Résolution de tâches multi-objets à long terme grâce à la généralisation constructive de sous-politiques formées indépendamment.
La prédiction de l’auto-progression permet des transitions en douceur entre les sous-politiques.
Atteindre des taux de réussite élevés dans les tâches du monde réel et vérifier les performances de généralisation.
Limitations:
Seuls les résultats expérimentaux pour un nombre limité de tâches du monde réel (trois) sont présentés.
Des recherches supplémentaires sont nécessaires pour déterminer dans quelle mesure les performances de généralisation peuvent être maintenues dans différents environnements et tâches.
Des analyses plus approfondies sont nécessaires sur la précision et la fiabilité des prédictions d’auto-progression.
Manque d’analyse du coût de calcul et de la complexité de la méthode proposée.
👍