Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Acteur-critique doux à récompense moyenne

작성자
  • Haebom

Auteur

Jacob Adamczyk, Volodymyr Makarenko, Stas Tiomkin, Rahul V. Kulkarni

Contour

Cet article aborde l'intérêt croissant pour les formulations de récompense moyenne pour l'apprentissage par renforcement (RL), capables de résoudre des problèmes à long terme sans actualisation. Dans des contextes d'actualisation, des algorithmes de régulation entropique ont été développés, démontrant des performances supérieures à celles des méthodes déterministes. Cependant, aucun algorithme d'RL profond ciblant des objectifs de récompense moyenne régulant l'entropie n'a été développé. Pour combler cette lacune, cet article propose un algorithme d'acteur-critique souple basé sur la récompense moyenne. Nous validons notre méthode en la comparant aux algorithmes de récompense moyenne existants sur des benchmarks RL standard, obtenant des performances supérieures pour le critère de récompense moyenne.

Takeaways, Limitations

Takeaways: Nous présentons un nouvel algorithme d'apprentissage par renforcement profond (acteur-critique souple moyenne-récompense) pour la régulation entropique de l'objectif moyenne-récompense. Nous démontrons l'efficacité de cette formulation en surpassant les algorithmes existants sur les tests de référence standard de l'apprentissage par renforcement. Nous présentons une nouvelle approche pour résoudre le problème moyenne-récompense en utilisant le cadre acteur-critique.
Limitations: Les performances de l'algorithme présenté peuvent être limitées à un benchmark spécifique. Des recherches supplémentaires sont nécessaires pour déterminer ses performances de généralisation dans divers environnements. L'analyse du coût et de la complexité de calcul de l'algorithme fait défaut.
👍