본 논문은 분산 환경 시뮬레이션을 통해 강화학습(RL) 작업의 확장성을 향상시키는 경량의 학습 알고리즘에 독립적인 인터페이스인 ClusterEnv를 제시합니다. 기존 프레임워크의 모듈성 및 재사용성 한계를 극복하기 위해, ClusterEnv는 Gymnasium API를 따르는 분산 환경 실행을 위한 인터페이스를 제공하며, DETACH 패턴을 통해 원격 작업자에게 reset() 및 step() 연산을 위임하여 시뮬레이션과 학습을 분리합니다. 또한, 분산 실행에서의 정책 오래됨 문제를 해결하기 위해, 발산을 트리거로 하는 업데이트 메커니즘인 AAPS(Adaptive Actor Policy Synchronization)를 제안하여 동기화 오버헤드를 줄이면서 성능을 유지합니다. ClusterEnv는 기존 RL 파이프라인에 통합이 용이하며, 온-폴리시 및 오프-폴리시 방법 모두를 지원하고 코드 변경이 최소화됩니다. 이산 제어 작업에 대한 실험 결과, AAPS가 가중치 업데이트 횟수를 크게 줄이면서 높은 샘플 효율성을 달성함을 보여줍니다. 소스 코드는 깃허브에서 공개됩니다.