[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Formation basée sur la population à fréquences multiples

Created by
  • Haebom

Auteur

Wa el Doulazmi, Auguste Lehuger, Marin Toromanoff, Valentin Charraut, Thibault Buhet, Fabien Moutarde

Contour

L'apprentissage par renforcement est très sensible aux hyperparamètres, ce qui entraîne instabilité et inefficacité. Pour résoudre ce problème, des algorithmes d'optimisation des hyperparamètres (HPO) ont été développés. L'apprentissage par population (PBT) est un algorithme qui a attiré l'attention pour sa capacité à générer des planifications d'hyperparamètres plutôt que des paramètres fixes. L'apprentissage par population entraîne plusieurs agents avec différents hyperparamètres et répète le processus de remplacement des agents peu performants par des variantes d'agents plus performants. Cependant, en raison de ce processus de sélection intermédiaire, l'apprentissage par renforcement se concentre sur les améliorations à court terme et tombe dans des optima locaux, ce qui peut entraîner des performances inférieures à celles de la recherche aléatoire générale à long terme. Cet article étudie le lien entre ce problème glouton et la fréquence d'évolution (la vitesse à laquelle la sélection est effectuée) et propose le MF-PBT (Multiple-Frequencies Population-Based Training), un nouvel algorithme HPO qui résout ce problème glouton en utilisant des sous-populations évoluant à différentes fréquences. MF-PBT introduit un processus de migration qui transfère les informations entre les sous-populations afin d'équilibrer l'optimisation à court et à long terme. Des expériences approfondies sur la suite Brax montrent que MF-PBT améliore l'efficacité des échantillons et les performances à long terme sans réglage des hyperparamètres.

Takeaways, Limitations_

Takeaways:
Nous présentons un nouvel algorithme, MF-PBT, qui aborde le problème de l’obsession de PBT pour les améliorations à court terme.
Améliorer l’équilibre entre l’optimisation à court et à long terme grâce aux sous-populations et aux processus de migration.
Nous démontrons une efficacité d’échantillonnage améliorée et des performances à long terme dans la suite Brax sans réglage des hyperparamètres.
Limitations:
L’amélioration des performances de MF-PBT est limitée à la suite Brax, et des recherches supplémentaires sont nécessaires sur sa généralisabilité à d’autres environnements.
Des recherches supplémentaires sont nécessaires sur les hyperparamètres du MF-PBT, tels que le nombre optimal de sous-populations et la stratégie de migration.
Une analyse comparative plus approfondie avec d’autres algorithmes HPO est nécessaire.
👍