강화학습은 하이퍼파라미터에 매우 민감하여 불안정성과 비효율성을 초래하는데, 이를 해결하기 위해 하이퍼파라미터 최적화(HPO) 알고리즘이 개발되었다. PBT(Population-Based Training)는 고정된 설정값 대신 하이퍼파라미터 스케줄을 생성하는 능력으로 주목받는 알고리즘이다. PBT는 각기 다른 하이퍼파라미터를 가진 여러 에이전트를 학습시키고, 성능이 낮은 에이전트를 상위 에이전트의 변형으로 대체하는 과정을 반복한다. 하지만 이러한 중간 단계의 선택 과정으로 인해 PBT는 단기적인 개선에 집중하여 지역 최적점에 빠지고 장기적으로는 일반적인 랜덤 서치보다 성능이 떨어질 수 있다. 본 논문은 이러한 탐욕적인 문제가 진화 빈도(선택이 이루어지는 속도)와 어떻게 관련되어 있는지 연구하고, 서로 다른 빈도로 진화하는 하위 모집단을 사용하여 탐욕적인 문제를 해결하는 새로운 HPO 알고리즘인 MF-PBT(Multiple-Frequencies Population-Based Training)를 제안한다. MF-PBT는 하위 모집단 간 정보를 전달하는 마이그레이션 과정을 도입하여 단기 및 장기 최적화의 균형을 맞춘다. Brax suite에서의 광범위한 실험을 통해 MF-PBT가 하이퍼파라미터를 조정하지 않더라도 샘플 효율성과 장기적인 성능을 향상시킨다는 것을 보여준다.
시사점, 한계점
•
시사점:
◦
PBT의 단기적인 개선에 대한 집착 문제를 해결하는 새로운 알고리즘 MF-PBT 제시.
◦
하위 모집단과 마이그레이션 과정을 통해 단기 및 장기 최적화의 균형을 개선.
◦
하이퍼파라미터 조정 없이도 Brax suite에서 샘플 효율성 및 장기 성능 향상을 입증.
•
한계점:
◦
MF-PBT의 성능 향상이 Brax suite에 국한되어 다른 환경에서의 일반화 가능성에 대한 추가 연구 필요.
◦
최적의 하위 모집단 수 및 마이그레이션 전략 등 MF-PBT의 하이퍼파라미터에 대한 추가 연구 필요.