Cet article propose le cadre SMARL (Shield Multi-Agent Reinforcement Learning), qui étend les boucliers logiques probabilistes (PLS), garants de la sécurité de l'apprentissage par renforcement mono-agent, aux environnements multi-agents. SMARL introduit une nouvelle méthode de mise à jour par différence temporelle logique probabiliste (PLTD) qui intègre directement les contraintes probabilistes dans le processus de mise à jour des valeurs, ainsi qu'une méthode de gradient de politique logique probabiliste qui fournit des garanties de sécurité formelles pour MARL. Nous évaluons SMARL sur divers benchmarks de théorie des jeux à n joueurs avec contraintes symétriques et asymétriques, démontrant qu'il réduit les violations de contraintes et améliore significativement la coopération par rapport aux méthodes existantes. Cela suggère que SMARL peut être établi comme un mécanisme efficace pour des systèmes multi-agents sécurisés et socialement harmonieux.