Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SLAC : espace d'action latent pré-entraîné par simulation pour l'apprentissage par renforcement du corps entier dans le monde réel

Created by
  • Haebom

Auteur

Jiaheng Hu, Peter Stone, Roberto Mart in-Mart in

Contour

Dans cet article, nous présentons une nouvelle méthodologie, le contrôle d'actions latentes basé sur les compétences (SLAC), visant à relever les défis d'évolutivité de l'apprentissage par renforcement (RL) pour la construction de robots domestiques et industriels nécessitant un contrôle système à haut degré de liberté (DoF). Pour répondre aux défis d'exploration sûre et d'efficacité d'échantillonnage élevés de l'apprentissage par renforcement traditionnel en situation réelle, ainsi qu'à l'écart entre la simulation et le monde réel, SLAC pré-entraîne un espace d'actions latentes indépendant de la tâche à l'aide d'un simulateur basse fidélité. Cet espace d'actions latentes est appris via une méthode de découverte de compétences non supervisée conçue pour favoriser l'abstraction temporelle, la séparation et la sécurité, puis est utilisé comme interface d'action pour un nouvel algorithme d'apprentissage par renforcement hors stratégie afin d'apprendre de manière autonome des tâches en aval via des interactions en situation réelle. Les résultats expérimentaux montrent que SLAC atteint des performances de pointe sur diverses tâches de manipulation bilatérale et apprend des tâches corporelles complètes à contact élevé en moins d'une heure, sans aucune démonstration ni connaissance préalable d'action manuelle.

Takeaways, Limitations_

Takeaways:
Une nouvelle approche des problèmes de contrôle de robots à haut degré de liberté : relever les défis de sécurité et d'efficacité dans le RL du monde réel via le pré-apprentissage des espaces d'action potentiels à l'aide de simulateurs basse fidélité.
Apprentissage de tâches complexes sans démonstrations ni connaissances préalables : une méthode de découverte de compétences basée sur l'apprentissage non supervisé qui prend en compte l'abstraction temporelle, la séparabilité et la sécurité, permettant un apprentissage en aval efficace.
Temps d'interaction réduit dans le monde réel : apprenez avec succès des tâches à contact élevé et sollicitant tout le corps en moins d'une heure.
Atteindre des performances de pointe dans les tâches de manipulation de mouvements bilatéraux des bras.
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer si l’écart entre la réalité et les simulateurs basse fidélité peut être entièrement comblé.
Absence de description détaillée du type et des caractéristiques du simulateur utilisé.
La vérification des performances de généralisation dans une variété d’environnements et de tâches est nécessaire.
Problèmes de coûts de calcul en fonction de la taille et de la complexité de l'espace d'action potentiel.
👍