본 논문은 다수의 드론이 배구 경기를 통해 협력 및 경쟁하는 로봇 스포츠 테스트베드인 VolleyBots를 제시합니다. VolleyBots는 경쟁 및 협력 게임 플레이, 턴 기반 상호 작용 구조, 민첩한 3D 기동이라는 세 가지 특징을 통합한 플랫폼입니다. 드론은 팀 동료와 조정하고 상대 팀의 전술을 예상하고 대응해야 하는 과제를 안고 있습니다. 턴 기반 상호 작용은 정확한 타이밍, 정확한 상태 예측 및 장기적인 시간적 의존성 관리를 필요로 하며, 민첩한 3D 기동은 쿼드로터의 부족한 구동에도 불구하고 빠른 가속, 급격한 회전 및 정확한 3D 위치 지정을 필요로 합니다. 논문에서는 단일 드론 연습부터 다중 드론 협력 및 경쟁 과제에 이르는 포괄적인 과제 세트와 대표적인 다중 에이전트 강화 학습(MARL) 및 게임 이론 알고리즘의 기준 평가를 제공합니다. 시뮬레이션 결과는 온 폴리시 강화 학습(RL) 방법이 단일 에이전트 과제에서 오프 폴리시 방법보다 성능이 우수하지만, 운동 제어와 전략적 플레이를 결합하는 복잡한 과제에서는 두 가지 방법 모두 어려움을 겪는다는 것을 보여줍니다. 또한 계층적 정책을 설계하여 3대 3 과제에서 가장 강력한 기준보다 69.5%의 승률을 달성하여 저수준 제어와 고수준 전략 간의 복잡한 상호 작용을 해결하기 위한 효과적인 솔루션으로서의 잠재력을 강조합니다.
시사점, 한계점
•
시사점:
◦
로봇 스포츠를 통해 구현된 지능을 평가할 수 있는 새로운 테스트베드인 VolleyBots를 제시.
◦
운동 제어와 전략적 플레이를 결합한 복잡한 문제에 대한 효과적인 해결책으로 계층적 정책의 잠재력을 보여줌.
◦
온 폴리시 RL 방법이 단일 에이전트 과제에서 더 우수한 성능을 보임.
•
한계점:
◦
온 폴리시 및 오프 폴리시 RL 방법 모두 운동 제어와 전략적 플레이가 결합된 복잡한 과제에서 어려움을 겪음.