Học tăng cường rất nhạy cảm với siêu tham số, dẫn đến sự bất ổn định và kém hiệu quả. Để giải quyết vấn đề này, các thuật toán tối ưu hóa siêu tham số (HPO) đã được phát triển. Huấn luyện dựa trên quần thể (PBT) là một thuật toán đã thu hút sự chú ý vì khả năng tạo lịch trình siêu tham số thay vì các thiết lập cố định. PBT huấn luyện nhiều tác nhân với các siêu tham số khác nhau và lặp lại quá trình thay thế các tác nhân hiệu suất thấp bằng các biến thể của các tác nhân vượt trội. Tuy nhiên, do quá trình lựa chọn trung gian này, PBT tập trung vào các cải tiến ngắn hạn và rơi vào trạng thái tối ưu cục bộ, điều này có thể dẫn đến hiệu suất thấp hơn so với tìm kiếm ngẫu nhiên chung về lâu dài. Bài báo này nghiên cứu cách vấn đề tham lam này liên quan đến tần suất tiến hóa (tốc độ thực hiện lựa chọn) và đề xuất MF-PBT (Huấn luyện dựa trên quần thể đa tần số), một thuật toán HPO mới giải quyết vấn đề tham lam bằng cách sử dụng các quần thể con tiến hóa ở các tần suất khác nhau. MF-PBT giới thiệu một quy trình di cư chuyển thông tin giữa các quần thể con để cân bằng giữa tối ưu hóa ngắn hạn và dài hạn. Các thí nghiệm mở rộng trên bộ Brax cho thấy MF-PBT cải thiện hiệu quả mẫu và hiệu suất lâu dài mà không cần điều chỉnh siêu tham số.