Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Transition progressive de l'opérateur d'optimalité Bellman à l'opérateur Bellman dans l'apprentissage par renforcement en ligne

Created by
  • Haebom

Auteur

Motoki Omura, Kazuki Ota, Takayuki Osa, Yusuke Mukuta, Tatsuya Harada

Contour

Cet article se concentre sur les méthodes acteur-critique pour l'apprentissage par renforcement dans les espaces d'action continus. Les algorithmes existants d'apprentissage par renforcement dans les espaces d'action continus utilisent l'opérateur de Bellman pour modéliser la valeur Q de la politique actuelle, mais ne modélisent pas la fonction d'optimalité. Cela conduit à une faible efficacité d'échantillonnage. Cette étude examine l'efficacité de l'intégration de l'opérateur d'optimalité de Bellman dans le cadre acteur-critique. Des expériences dans un environnement simple démontrent que la modélisation de l'optimalité accélère l'apprentissage, mais introduit un biais de surestimation. Pour remédier à ce problème, nous proposons une technique de recuit qui effectue une transition progressive de l'opérateur d'optimalité de Bellman vers l'opérateur de Bellman. Combinée à TD3 et SAC, notre méthode surpasse les méthodes existantes sur diverses tâches de mouvement et de manipulation et présente une robustesse aux hyperparamètres liés à l'optimalité. Le code est disponible à l' adresse https://github.com/motokiomura/annealed-q-learning .

Takeaways, Limitations

Takeaways: Nous démontrons qu'une technique de recuit utilisant l'opérateur d'optimalité de Bellman améliore l'efficacité des échantillons dans l'apprentissage par renforcement continu de l'espace d'action et optimise les performances des algorithmes existants tels que TD3 et SAC. Cela améliore la robustesse aux hyperparamètres liés à l'optimalité.
Limitations: L'efficacité de la méthode proposée a été vérifiée sur la base de résultats expérimentaux dans un environnement simple. Par conséquent, des expériences supplémentaires dans des environnements plus complexes et diversifiés sont nécessaires. Une analyse plus approfondie est nécessaire pour déterminer si la technique de recuit corrige pleinement le biais de surestimation causé par l'utilisation de l'opérateur d'optimalité de Bellman.
👍