Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Méthodes efficaces d'apprentissage Q et d'acteur critique pour un apprentissage par renforcement robuste de la récompense moyenne

Created by
  • Haebom

Auteur

Yang Xu, Swetha Ganesh, Vaneet Aggarwal

Contour

Cet article présente une analyse de convergence non asymptotique des algorithmes d'apprentissage Q et d'acteur-critique pour des processus de décision markoviens (MDP) robustes à moyenne-récompense sous contamination, distance de variation totale (TV) et ensembles d'incertitude de Wasserstein. L'élément clé de l'analyse est de montrer que l'opérateur Q robuste optimal est strictement contractile pour des quasi-normes soigneusement conçues (à l'exclusion des fonctions constantes). Cette propriété permet une mise à jour approximative probabiliste qui apprend la fonction Q robuste optimale à l'aide d'échantillons $\tilde{\mathcal{O}}(\epsilon^{-2})$. De plus, nous fournissons une routine efficace pour l'estimation robuste de la fonction Q, facilitant l'estimation robuste des critiques. Sur cette base, nous présentons un algorithme d'acteur-critique qui apprend des politiques robustes $\epsilon$-optimales au sein d'échantillons $\tilde{\mathcal{O}}(\epsilon^{-2})$. Des simulations numériques sont fournies pour évaluer les performances de l'algorithme.

Takeaways, Limitations

Takeaways:
Nous fournissons une base théorique en fournissant une analyse de convergence non asymptotique des algorithmes d'apprentissage Q et d'acteur-critique pour des MDP robustes à moyenne-récompense.
Nous prouvons la contractilité stricte de l'opérateur Q robuste optimal, fournissant une base pour la conception d'algorithmes d'apprentissage efficaces.
Nous présentons un algorithme d'apprentissage de fonction Q et de politique robuste et efficace qui atteint une complexité d'échantillon de $\tilde{\mathcal{O}}(\epsilon^{-2})$.
Limitations:
Une validation expérimentale supplémentaire des performances de l’algorithme dans des applications réelles est nécessaire.
Des recherches supplémentaires sont nécessaires sur la généralisabilité des résultats à différents types d’ensembles d’incertitudes.
Une analyse de la complexité de calcul des algorithmes dans les espaces d’état de grande dimension est nécessaire.
👍