Este artículo propone un método que aprovecha las restricciones de todo el equipo, en lugar de las de agentes individuales, para abordar problemas de seguridad en el aprendizaje por refuerzo multiagente. Los algoritmos existentes de aprendizaje por refuerzo seguro restringen el comportamiento de los agentes para limitar la exploración, lo cual es crucial para descubrir comportamientos cooperativos efectivos. En este artículo, presentamos la Búsqueda de Entropía (E2C), un método para el aprendizaje por refuerzo multiagente restringido. E2C fomenta la exploración al maximizar la entropía de observación, lo que facilita el aprendizaje de comportamientos cooperativos seguros y efectivos. Amplios resultados experimentales demuestran que E2C tiene un rendimiento igual o superior al de los modelos de referencia existentes, tanto con como sin restricciones, reduciendo los comportamientos inseguros hasta en un 50 %.