Este artículo propone el marco de aprendizaje por refuerzo multiagente blindado (SMARL), que extiende los escudos lógicos probabilísticos (PLS), que garantizan la seguridad en el aprendizaje por refuerzo de un solo agente, a entornos multiagente. SMARL introduce un novedoso método de actualización de diferencia temporal lógica probabilística (PLTD) que integra directamente las restricciones probabilísticas en el proceso de actualización de valores, y un método de gradiente de política lógica probabilística que proporciona garantías formales de seguridad para MARL. Evaluamos SMARL en varios puntos de referencia de la teoría de juegos de n jugadores con restricciones simétricas y asimétricas, demostrando que reduce las violaciones de restricciones y mejora significativamente la cooperación en comparación con los métodos existentes. Esto sugiere que SMARL puede establecerse como un mecanismo eficaz para sistemas multiagente seguros y socialmente armoniosos.