본 논문은 대규모 실세계 시스템에 다중 에이전트 강화 학습(MARL)을 적용하는 데 있어 직면하는 과제를 해결하기 위해 새로운 프레임워크인 SrSv(Sequential rollout with Sequential value estimation)를 제안합니다. SrSv는 Transformer 모델의 자기회귀 특성을 활용하여 다양한 에이전트 개체 수를 순차적인 행동 롤아웃을 통해 처리하고, 에이전트 간 정책 분포와 가치 함수의 상호 의존성을 포착하기 위해 혁신적인 순차적 가치 추정 방법론을 도입하여 가치 근사를 어텐션 기반 순차 모델에 통합합니다. Multi-Agent MuJoCo, StarCraft Multi-Agent Challenge, 그리고 DubinsCars 세 가지 벤치마크에서 기존 방법보다 훈련 효율성을 크게 향상시키면서 수렴 성능을 저해하지 않음을 실험적으로 보여줍니다. 특히 1,024개 에이전트로 구성된 대규모 DubinsCar 시스템에서 기존 벤치마크를 능가하는 확장성을 입증합니다.