본 논문은 3대3 다중 드론 배구라는 새로운 구현된 경쟁 과제를 해결하는 방법을 제시합니다. 이 과제는 고차원 전략적 조정과 저차원 민첩한 제어를 모두 필요로 하는 턴제, 다중 에이전트, 물리적으로 근거한 과제입니다. 장기 의존성, 긴밀한 에이전트 간 결합, 그리고 쿼드로터의 부족한 구동 역학으로 인해 상당한 어려움을 안고 있습니다. 이를 해결하기 위해 중앙 집중식 고차원 전략적 의사 결정과 분산된 저차원 동작 제어를 분리하는 계층적 강화 학습 프레임워크인 계층적 공동 자기 플레이(HCSP)를 제안합니다. 전문가 시연 없이 전략과 기술이 처음부터 생성될 수 있도록 3단계 기반 인구 학습 파이프라인을 설계했습니다. (I) 다양한 저차원 기술 훈련, (II) 고정된 저차원 기술을 사용한 자기 플레이를 통한 고차원 전략 학습, (III) 공동 자기 플레이를 통한 공동 미세 조정입니다. 실험 결과 HCSP는 비계층적 자기 플레이 및 규칙 기반 계층적 기준보다 우수한 성능을 달성하여 평균 82.9%의 승률과 2단계 변형에 대해 71.5%의 승률을 기록했습니다. 또한, 공동 자기 플레이는 역할 전환 및 조정된 편대와 같은 새로운 팀 행동으로 이어져 계층적 설계 및 훈련 방식의 효과를 보여줍니다.