Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

ULTHO: Optimización de hiperparámetros ultraligera pero eficiente en aprendizaje de refuerzo profundo

Created by
  • Haebom

Autor

Mingqi Yuan, Bo Li, Xin Jin, Wenjun Zeng

Describir

Este artículo propone ULTHO, un marco ultraligero de optimización de hiperparámetros (HPO) para el aprendizaje por refuerzo profundo (DRL). Si bien los enfoques de HPO existentes presentan una baja eficiencia de muestreo y altos costos computacionales, ULTHO utiliza la técnica de bandido multibrazo (MAB) y brazos agrupados para realizar HPO rápidamente en una sola ejecución. Proporciona información cuantitativa y estadística para el filtrado eficiente de hiperparámetros, junto con la optimización de recompensas a largo plazo. Demostramos experimentalmente su rendimiento superior en benchmarks como ALE, Procgen, MiniGrid y PyBullet. A pesar de su arquitectura simple, ULTHO alcanza un rendimiento excelente, lo que podría contribuir al desarrollo de sistemas avanzados de aprendizaje por refuerzo (RL) automatizados.

Takeaways, Limitations

Takeaways:
Presentando una solución eficiente y efectiva al problema HPO en DRL.
Reduzca los costos computacionales y mejore la eficiencia de la muestra con el marco ultraligero ULTHO.
HPO posible dentro de una sola ejecución
Excelente rendimiento verificado en varios puntos de referencia.
Contribuir al desarrollo de sistemas avanzados de aprendizaje automático (RL)
Limitations:
Se necesita más investigación sobre el rendimiento de generalización del método propuesto.
Se requiere verificación de aplicabilidad para diversos problemas y entornos de DRL.
Se necesita un análisis más profundo de la complejidad y escalabilidad de ULTHO.
👍