Este artículo propone ULTHO, un marco ultraligero de optimización de hiperparámetros (HPO) para el aprendizaje por refuerzo profundo (DRL). Si bien los enfoques de HPO existentes presentan una baja eficiencia de muestreo y altos costos computacionales, ULTHO utiliza la técnica de bandido multibrazo (MAB) y brazos agrupados para realizar HPO rápidamente en una sola ejecución. Proporciona información cuantitativa y estadística para el filtrado eficiente de hiperparámetros, junto con la optimización de recompensas a largo plazo. Demostramos experimentalmente su rendimiento superior en benchmarks como ALE, Procgen, MiniGrid y PyBullet. A pesar de su arquitectura simple, ULTHO alcanza un rendimiento excelente, lo que podría contribuir al desarrollo de sistemas avanzados de aprendizaje por refuerzo (RL) automatizados.