본 논문은 다중 에이전트 시스템(MAS)에서 안전성과 확장성 문제를 해결하기 위해 새로운 프레임워크인 Scalable Safe MARL (SS-MARL)을 제안합니다. 기존의 보상 조절에만 의존하는 다중 에이전트 강화 학습(MARL) 알고리즘의 안전성과 확장성 한계를 극복하기 위해, MAS의 그래프 구조를 활용한 다층 메시지 전달 네트워크를 설계하여 다양한 크기의 지역 관측값과 통신을 집계합니다. 또한, 지역 관측 설정에서 제약 조건이 있는 공동 정책 최적화 방법을 개발하여 안전성을 향상시킵니다. 시뮬레이션 실험을 통해 SS-MARL이 기존 방법보다 안전성과 최적성 간의 균형을 더 잘 맞추고, 많은 에이전트가 있는 시나리오에서 확장성이 훨씬 뛰어남을 보여줍니다.