Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Apprentissage par renforcement basé sur un modèle du premier ordre par rétropropagation découplée

Created by
  • Haebom

Auteur

Joseph Amigo, Rooholla Khorrambakht, Elliot Chane-Sane, Nicolas Mansard, Ludovic Righetti

Contour

Cet article explore comment améliorer l'efficacité de l'apprentissage par renforcement (RL) en exploitant les dérivées du simulateur. Bien que les approches existantes basées sur les gradients aient démontré des performances supérieures à celles des approches non dérivées, l'accès aux gradients du simulateur reste complexe en raison des coûts de mise en œuvre ou de l'inaccessibilité. L'apprentissage par renforcement basé sur un modèle (MBRL) peut approximer ces gradients à l'aide de modèles dynamiques appris, mais les erreurs de prédiction s'accumulent pendant l'apprentissage, ce qui peut réduire l'efficacité du solveur et dégrader les performances des politiques. Dans cet article, nous proposons une méthode qui dissocie la génération de trajectoires et le calcul de gradients. Les trajectoires sont développées à l'aide d'un simulateur, et les gradients sont calculés par rétropropagation via le modèle différentiable appris du simulateur. Cette conception hybride permet une optimisation de premier ordre efficace et cohérente des politiques, même lorsque les gradients du simulateur ne sont pas disponibles, et permet d'apprendre des évaluateurs plus précis à partir de trajectoires simulées. La méthode proposée atteint l'efficacité et la rapidité d'échantillonnage d'optimiseurs spécialisés comme SHAC, tout en conservant la généralité des approches standard comme PPO et en évitant les dysfonctionnements observés dans d'autres méthodes MBRL de premier ordre. Nous validons expérimentalement l'algorithme sur des tâches de contrôle de référence et démontrons son efficacité sur un véritable robot quadrupède Go2 dans des tâches de marche quadrupède et bipède.

Takeaways, Limitations

Takeaways:
Une méthode efficace d’apprentissage par renforcement est présentée pour surmonter les difficultés de l’approche par gradient du simulateur.
Amélioration de l'efficacité et de la stabilité de l'optimisation des politiques de premier ordre en séparant la génération de trajectoire et le calcul du gradient.
Combinaison de l’efficacité de l’échantillon de SHAC avec la généralité du PPO.
Validation de l'efficacité de l'algorithme par des expériences réelles sur des robots.
Surmonter Limitations (accumulation d'erreurs de prédiction) des méthodes MBRL existantes.
Limitations :
Des recherches supplémentaires sont nécessaires sur la généralité de la méthode proposée et les domaines de problèmes auxquels elle peut être appliquée.
Une analyse plus approfondie est nécessaire pour déterminer comment la précision du modèle différentiable appris affecte les performances globales du système.
L’évaluation des performances est nécessaire dans des systèmes et environnements robotiques plus complexes et plus diversifiés.
Une vérification supplémentaire de l’évolutivité dans les espaces d’état de grande dimension est nécessaire.
👍