본 논문은 온-폴리시 강화학습(RL) 알고리즘의 확장성 한계를 극복하기 위해 진화 알고리즘(EA)을 결합한 새로운 알고리즘인 EPO(Evolutionary Policy Optimization)를 제안합니다. 온-폴리시 RL 알고리즘은 큰 배치 크기에 대해 확장성이 떨어지는 반면, EA는 확장성이 뛰어나지만 표본 효율이 낮다는 단점이 있습니다. EPO는 잠재 변수를 조건으로 하는 에이전트 집단을 유지하고, 액터-크리틱 네트워크 파라미터를 공유하여 다양한 경험을 통합하는 방식으로 이러한 문제점을 해결합니다. 손재주 있는 조작, 다리 달린 로봇의 이동, 고전적인 제어 등 다양한 작업에서 EPO는 기존 최고 성능 알고리즘보다 표본 효율, 점근적 성능, 그리고 확장성 면에서 우수한 성능을 보였습니다.