Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Exploration optimiste pour l'apprentissage par renforcement contraint et averse au risque

Created by
  • Haebom

Auteur

James McCarthy, Radu Marinescu, Elizabeth Daly, Ivana Dusparic

Contour

Cet article propose l'algorithme Acteur-Critique Optimiste et Averse au Risque (ORAC) pour résoudre le problème de l'exploration conservatrice dans l'apprentissage par renforcement contraint et averse au risque (RaCRL), qui conduit à une convergence sous-optimale des politiques. ORAC construit une politique d'exploration qui maximise l'intervalle de confiance supérieur de la fonction récompense-valeur état-action et minimise l'intervalle de confiance inférieur de la fonction coût-valeur état-action averse au risque. Il encourage l'exploration de régions incertaines pour découvrir des états à forte récompense tout en satisfaisant les contraintes de sécurité, et démontre de meilleurs compromis récompense-coût par rapport aux méthodes existantes dans les tâches de contrôle continu telles que Safety-Gymnasium et CityLearn.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle approche basée sur la recherche qui aborde efficacement le problème de la convergence vers des politiques sous-optimales dans l’apprentissage par renforcement contraint et averse au risque.
L’apprentissage des politiques permet d’explorer efficacement les régions environnementales incertaines et de satisfaire les contraintes de sécurité tout en maximisant les récompenses.
Des améliorations de performances ont été démontrées expérimentalement dans diverses tâches de contrôle continu telles que Safety-Gymnasium et CityLearn.
Fournit un compromis efficace entre récompense et risque.
Limitations:
Les performances de l'algorithme proposé peuvent dépendre d'environnements spécifiques. Des recherches supplémentaires sont nécessaires pour déterminer ses performances de généralisation dans différents environnements.
Une estimation précise des intervalles de confiance supérieurs et inférieurs peut avoir un impact significatif sur les performances des algorithmes. Des améliorations des méthodes d'estimation des intervalles de confiance sont nécessaires.
Les coûts de calcul peuvent être élevés dans les environnements complexes. Des recherches sont nécessaires pour améliorer l'efficacité des calculs.
👍