본 논문은 다중 에이전트 환경에서의 계층적 강화 학습을 위한 새로운 방법론을 제시합니다. 특히, 다중 에이전트 작업에서 하위 그룹 조정 패턴을 자동으로 추출하는 문제를 해결하기 위해, VO-MASD-3D와 VO-MASD-Hier라는 두 가지 새로운 오토인코더 기반의 다중 에이전트 스킬 학습 방법을 제안합니다. 이 방법은 에이전트 간 상호작용을 기반으로 잠재적인 하위 그룹을 자동으로 감지하는 동적 그룹화 기능을 포함하며, 하위 그룹 및 시간적 수준의 추상화를 동시에 포착하여 다중 에이전트 스킬을 형성합니다. 또한 오프라인 다중 작업 데이터에 적용 가능하며, 발견된 하위 그룹 스킬은 재훈련 없이 관련 작업 간에 전이될 수 있습니다. StarCraft 작업에 대한 실험 결과는 제안된 방법이 기존의 계층적 다중 에이전트 강화 학습(MARL) 방법보다 성능이 우수하며, 지연되고 드문 보상 신호를 가진 MARL 시나리오에서 학습 난이도를 효과적으로 줄일 수 있음을 보여줍니다. 소스 코드는 공개되어 있습니다.