Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Réseau Q grossier à fin avec séquence d'actions pour un apprentissage robotique efficace en données

Created by
  • Haebom

Auteur

Younggyo Seo, Pieter Abbeel

Contour

Dans cet article, nous proposons d'appliquer le concept de prédiction de séquences d'actions, essentiel au succès des algorithmes de réplication d'actions, à l'apprentissage par renforcement (RL). Partant du constat que l'intégration de séquences d'actions lors de la prédiction du retour à la réalité terrain réduit les pertes de validation, nous présentons le réseau Q grossier-fin avec séquence d'actions (CQN-AS), un nouvel algorithme RL basé sur les valeurs qui entraîne un réseau critique générant des valeurs Q pour les séquences d'actions. Autrement dit, nous entraînons une fonction de valeur pour apprendre explicitement les résultats de l'exécution des séquences d'actions. Les résultats expérimentaux montrent que le CQN-AS surpasse plusieurs algorithmes de référence sur diverses tâches de contrôle humanoïde à récompense clairsemée et de manipulation de table dans BiGym et RLBench.

Takeaways, Limitations

Takeaways: Nous démontrons que la prise en compte explicite des séquences d'actions peut améliorer les performances de l'apprentissage par renforcement. Nous démontrons expérimentalement son efficacité, notamment dans les environnements à récompenses rares. CQN-AS surpasse les algorithmes d'apprentissage par renforcement existants sur diverses tâches.
Limitations: Des recherches supplémentaires sont nécessaires sur les performances de généralisation et l'applicabilité à divers environnements de l'algorithme CQN-AS présenté dans cet article. Des réglages optimaux des hyperparamètres pour des tâches spécifiques peuvent être nécessaires, et une analyse systématique de ces paramètres fait défaut. De plus, une évaluation plus approfondie de l'efficacité en termes de coût de calcul est nécessaire.
👍