본 논문은 다중 에이전트 강화학습(MARL)에서 안전성을 보장하는 새로운 프레임워크인 Shielded Multi-Agent Reinforcement Learning (SMARL)을 제안합니다. 기존의 Probabilistic Logic Shields (PLS)를 다중 에이전트 환경으로 확장하여, 에이전트들이 규범 준수적인 결과를 달성하도록 유도합니다. 핵심 기여는 세 가지로, (1) 확률적 제약 조건을 직접적으로 가치 업데이트 과정에 통합한 새로운 확률 논리 시간 차이(PLTD) 업데이트를 제시하고, (2) MARL을 위한 형식적 안전성 보장을 갖춘 확률 논리 정책 경사 방법을 제시하며, (3) 다양한 게임 이론적 벤치마크에서 광범위한 평가를 통해 제약 위반 감소와 협력 증진을 보여줍니다. 결과적으로 SMARL은 효과적인 평형 선택 메커니즘으로서, 더 안전하고 사회적으로 조화로운 다중 에이전트 시스템을 위한 길을 열어줍니다.