Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

RQdia : régularisation des distributions de valeurs Q par augmentation d'image

Created by
  • Haebom

Auteur

Sam Lerman, Jing Bi

Contour

RQdia est une nouvelle méthode de régularisation des distributions de valeurs Q à l'aide d'images augmentées dans l'apprentissage par renforcement profond basé sur les pixels. En égalisant les distributions de valeurs Q grâce à une simple fonction de perte auxiliaire utilisant l'équation multivariable (MSE), elle améliore les performances de DrQ et SAC dans l'environnement de contrôle continu MuJoCo dans respectivement 9 et 10 tâches sur 12, et améliore les performances de Data-Efficient Rainbow dans l'environnement d'arcade Atari dans 18 tâches sur 26. Cette amélioration des performances se manifeste tant en termes d'efficacité d'échantillonnage que d'apprentissage à long terme. De plus, grâce à rQdia, le contrôle continu sans modèle basé sur les pixels surpasse le modèle de base de codage d'état.

Takeaways, Limitations

Takeaways:
Démonstration de l'efficacité de la régularisation de la distribution de valeurs Q dans l'apprentissage par renforcement profond basé sur les pixels.
Améliorations des performances des algorithmes DrQ, SAC et Data-Efficient Rainbow.
Amélioration de l’efficacité des échantillons et des performances d’apprentissage à long terme.
Amélioration des performances du contrôle continu sans modèles basés sur des pixels.
Limitations:
Les expériences ont été menées uniquement dans les environnements MuJoCo et Atari. Leur généralisation à d'autres environnements nécessite des études plus approfondies.
Une étude comparative de l’efficacité d’autres fonctions de perte sur l’utilisation de MSE comme fonction de perte auxiliaire est nécessaire.
Une analyse du coût de calcul et de la complexité de rQdia est nécessaire.
👍