[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Entrenamiento basado en la población de múltiples frecuencias

Created by
  • Haebom

Autor

Wa el Doulazmi, Auguste Lehuger, Marin Toromanoff, Valentin Charraut, Thibault Buhet, Fabien Moutarde

Describir

El aprendizaje por refuerzo es muy sensible a los hiperparámetros, lo que genera inestabilidad e ineficiencia. Para resolver este problema, se han desarrollado algoritmos de optimización de hiperparámetros (HPO). El entrenamiento basado en la población (PBT) es un algoritmo que ha atraído la atención por su capacidad para generar programas de hiperparámetros en lugar de configuraciones fijas. PBT entrena a múltiples agentes con diferentes hiperparámetros y repite el proceso de reemplazar agentes de bajo rendimiento con variantes de agentes superiores. Sin embargo, debido a este proceso de selección intermedio, PBT se centra en mejoras a corto plazo y cae en óptimos locales, lo que puede resultar en un rendimiento inferior al de la búsqueda aleatoria general a largo plazo. Este artículo estudia cómo este problema de voracidad se relaciona con la frecuencia de evolución (la velocidad a la que se realiza la selección) y propone MF-PBT (entrenamiento basado en la población de múltiples frecuencias), un nuevo algoritmo HPO que resuelve el problema de voracidad mediante el uso de subpoblaciones que evolucionan a diferentes frecuencias. MF-PBT introduce un proceso de migración que transfiere información entre subpoblaciones para equilibrar la optimización a corto y largo plazo. Amplios experimentos con la suite Brax demuestran que MF-PBT mejora la eficiencia de las muestras y el rendimiento a largo plazo sin necesidad de ajustar los hiperparámetros.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo algoritmo, MF-PBT, que aborda el problema de la obsesión de PBT con las mejoras a corto plazo.
Mejorar el equilibrio entre la optimización a corto y largo plazo a través de subpoblaciones y procesos de migración.
Demostramos una eficiencia de muestra mejorada y un rendimiento a largo plazo en la suite Brax sin ajuste de hiperparámetros.
Limitations:
La mejora del rendimiento de MF-PBT se limita a la suite Brax, y se necesita más investigación sobre su generalización a otros entornos.
Se necesitan más investigaciones sobre los hiperparámetros de MF-PBT, como el número óptimo de subpoblaciones y la estrategia de migración.
Se necesita un análisis comparativo más profundo con otros algoritmos HPO.
👍