본 논문은 다수의 드론이 배구 경기를 통해 협력과 경쟁을 수행하는 새로운 로봇 스포츠 테스트베드인 VolleyBots를 제시합니다. VolleyBots는 경쟁 및 협력 게임 플레이, 턴 기반 상호 작용 구조, 민첩한 3D 조종이라는 세 가지 기능을 통합된 플랫폼에서 제공합니다. 각 드론은 팀 동료와 조정하고 상대 팀의 전술을 예상하고 대응해야 하는 과제에 직면하며, 정확한 타이밍, 정확한 상태 예측, 장기간의 시간적 의존성 관리가 필요합니다. 또한, 드론의 부족한 구동역학에도 불구하고 빠른 가속, 급격한 회전, 정확한 3D 위치 지정이 요구됩니다. 이러한 상호 연관된 기능들은 동작 제어와 전략적 플레이를 결합한 복잡한 문제를 야기하며, 전문가 시범이 없는 상황입니다. 논문에서는 단일 드론 연습부터 다중 드론 협력 및 경쟁 과제까지 다양한 과제와 대표적인 다중 에이전트 강화 학습(MARL) 및 게임 이론 알고리즘의 기준 평가를 제공합니다. 시뮬레이션 결과에 따르면 온-폴리시 강화 학습(RL) 방법이 단일 에이전트 과제에서 오프-폴리시 방법보다 성능이 우수하지만, 동작 제어와 전략적 플레이를 결합한 복잡한 과제에서는 두 가지 방법 모두 어려움을 겪습니다. 또한, 계층적 정책을 설계하여 3대 3 과제에서 가장 강력한 기준선에 대해 69.5%의 승률을 달성하여 저수준 제어와 고수준 전략 간의 복잡한 상호 작용을 해결하기 위한 효과적인 솔루션으로서의 잠재력을 보여줍니다.