El aprendizaje por refuerzo es muy sensible a los hiperparámetros, lo que genera inestabilidad e ineficiencia. Para resolver este problema, se han desarrollado algoritmos de optimización de hiperparámetros (HPO). El entrenamiento basado en la población (PBT) es un algoritmo que ha atraído la atención por su capacidad para generar programas de hiperparámetros en lugar de configuraciones fijas. PBT entrena a múltiples agentes con diferentes hiperparámetros y repite el proceso de reemplazar agentes de bajo rendimiento con variantes de agentes superiores. Sin embargo, debido a este proceso de selección intermedio, PBT se centra en mejoras a corto plazo y cae en óptimos locales, lo que puede resultar en un rendimiento inferior al de la búsqueda aleatoria general a largo plazo. Este artículo estudia cómo este problema de voracidad se relaciona con la frecuencia de evolución (la velocidad a la que se realiza la selección) y propone MF-PBT (entrenamiento basado en la población de múltiples frecuencias), un nuevo algoritmo HPO que resuelve el problema de voracidad mediante el uso de subpoblaciones que evolucionan a diferentes frecuencias. MF-PBT introduce un proceso de migración que transfiere información entre subpoblaciones para equilibrar la optimización a corto y largo plazo. Amplios experimentos con la suite Brax demuestran que MF-PBT mejora la eficiencia de las muestras y el rendimiento a largo plazo sin necesidad de ajustar los hiperparámetros.