Bài báo này đề xuất ULTHO, một khuôn khổ tối ưu hóa siêu tham số (HPO) siêu nhẹ cho Học tăng cường sâu (DRL). Trong khi các phương pháp HPO hiện tại gặp khó khăn về hiệu suất mẫu thấp và chi phí tính toán cao, ULTHO sử dụng kỹ thuật multi-armed bandit (MAB) và clustered arm để thực hiện HPO nhanh chóng chỉ trong một lần chạy. Nó cung cấp thông tin chi tiết về mặt định lượng và thống kê về hiệu quả lọc siêu tham số, kết hợp với tối ưu hóa phần thưởng dài hạn. Chúng tôi đã chứng minh hiệu suất vượt trội của nó trên các chuẩn như ALE, Procgen, MiniGrid và PyBullet. Mặc dù có kiến trúc đơn giản, ULTHO đạt được hiệu suất tuyệt vời, có khả năng đóng góp vào sự phát triển của các hệ thống RL tự động tiên tiến.