L'apprentissage par renforcement est très sensible aux hyperparamètres, ce qui entraîne instabilité et inefficacité. Pour résoudre ce problème, des algorithmes d'optimisation des hyperparamètres (HPO) ont été développés. L'apprentissage par population (PBT) est un algorithme qui a attiré l'attention pour sa capacité à générer des planifications d'hyperparamètres plutôt que des paramètres fixes. L'apprentissage par population entraîne plusieurs agents avec différents hyperparamètres et répète le processus de remplacement des agents peu performants par des variantes d'agents plus performants. Cependant, en raison de ce processus de sélection intermédiaire, l'apprentissage par renforcement se concentre sur les améliorations à court terme et tombe dans des optima locaux, ce qui peut entraîner des performances inférieures à celles de la recherche aléatoire générale à long terme. Cet article étudie le lien entre ce problème glouton et la fréquence d'évolution (la vitesse à laquelle la sélection est effectuée) et propose le MF-PBT (Multiple-Frequencies Population-Based Training), un nouvel algorithme HPO qui résout ce problème glouton en utilisant des sous-populations évoluant à différentes fréquences. MF-PBT introduit un processus de migration qui transfère les informations entre les sous-populations afin d'équilibrer l'optimisation à court et à long terme. Des expériences approfondies sur la suite Brax montrent que MF-PBT améliore l'efficacité des échantillons et les performances à long terme sans réglage des hyperparamètres.