본 논문은 분산 강화학습을 이용하여 비응집성 목표물들을 여러 에이전트가 유도하는 문제에 대한 해결책을 제시합니다. 근접 정책 최적화(Proximal Policy Optimization)를 이용하여 목표물 선택과 유도를 통합함으로써, 기존 심층 Q-네트워크(Deep Q-Network) 방식의 이산 행동 제약을 극복하고 더욱 부드러운 에이전트 궤적을 가능하게 합니다. 모델-프리 프레임워크를 통해 목표물의 역학적 지식 없이도 효과적으로 유도 문제를 해결합니다. 실험 결과는 증가하는 목표물 수와 제한된 감지 능력 하에서도 본 방법의 효과성과 확장성을 보여줍니다.