본 논문은 지리적으로 특정한 지형을 가진 대화형 시뮬레이션에서 역동적이고 적응적인 합성 캐릭터를 훈련시키는 데 점점 더 많이 사용되는 다중 에이전트 강화 학습(MARL)에 대해 다룬다. Unity의 ML-Agents와 같은 프레임워크는 시뮬레이션 커뮤니티에서 이러한 강화 학습 실험을 보다 쉽게 접근할 수 있도록 한다. 군사 훈련 시뮬레이션 또한 MARL의 발전으로부터 이익을 얻지만, 복잡하고, 연속적이며, 확률적이고, 부분적으로 관찰 가능하며, 비정상적이고, 교리 기반의 특성으로 인해 막대한 계산 요구 사항을 갖는다. 게다가 이러한 시뮬레이션은 지리적으로 특정한 지형을 필요로 하므로 계산 자원 문제가 더욱 악화된다. 본 연구에서는 Unity의 웨이포인트를 활용하여 지리적으로 특정한 지형의 다층 표현 추상화를 자동으로 생성하여 강화 학습의 규모를 확장하는 동시에 서로 다른 표현 간에 학습된 정책을 전송할 수 있도록 한다. 각 측면이 서로 다른 목표를 갖는 새로운 MARL 시나리오에 대한 초기 탐색 결과는 웨이포인트 기반 탐색이 CSGO 게임 환경에서 전문가 수준의 인간 플레이어가 취하는 궤적과 유사한 궤적을 생성하면서 더 빠르고 효율적인 학습을 가능하게 함을 나타낸다. 이 연구는 지리적으로 특정한 지형과 상이한 목표가 중요한 군사 훈련 시뮬레이션을 위한 MARL 모델 개발 및 훈련의 계산 비용을 줄이기 위한 웨이포인트 기반 탐색의 잠재력을 보여준다.