본 논문은 수중 추적과 같은 과학 임무에 비용 효율적인 솔루션을 제공하는 자율 주행 차량(AV)에 대해 다룹니다. 복잡한 해양 환경에서 AV를 제어하기 위한 강력한 방법으로 강화 학습(RL)이 등장했지만, 다중 목표 추적이나 빠르고 예측할 수 없는 움직임을 가진 목표물을 위해서는 여러 대의 차량으로 구성된 함대(fleet)로 확장하는 것이 중요하며, 이는 상당한 계산상의 어려움을 제시합니다. 다중 에이전트 강화 학습(MARL)은 샘플 효율이 매우 낮으며, Gazebo의 LRAUV와 같은 고충실도 시뮬레이터는 실시간보다 100배 빠른 단일 로봇 시뮬레이션을 제공하지만, 다중 차량 시나리오에 대한 속도 향상은 거의 제공하지 않아 MARL 훈련이 실질적으로 불가능합니다. 이러한 한계를 해결하기 위해, 본 논문에서는 고충실도 시뮬레이션을 단순화된 GPU 가속 환경으로 전환하면서 고차원 역학을 유지하는 반복적 증류 방법을 제안합니다. 이 방법은 병렬 처리를 통해 Gazebo보다 최대 30,000배 빠른 속도를 달성하여 엔드투엔드 GPU 가속을 통한 효율적인 훈련을 가능하게 합니다. 또한, 에이전트와 목표의 수에 불변하는 다중 에이전트 정책을 학습하는 새로운 Transformer 기반 아키텍처(TransfMAPPO)를 도입하여 샘플 효율을 크게 향상시킵니다. GPU에서 완전히 수행되는 대규모 커리큘럼 학습 후, Gazebo에서 광범위한 평가를 수행하여 여러 개의 빠르게 움직이는 목표물이 존재하는 경우에도 장시간에 걸쳐 추적 오류를 5미터 미만으로 유지함을 보여줍니다. 이 연구는 대규모 MARL 훈련과 고충실도 배포 간의 간극을 해소하여 실제 해양 임무에서 자율 함대 제어를 위한 확장 가능한 프레임워크를 제공합니다.