Cet article propose une méthode qui exploite les contraintes sur l'ensemble de l'équipe, plutôt que sur des agents individuels, pour résoudre les problèmes de sécurité dans l'apprentissage par renforcement multi-agents. Les algorithmes d'apprentissage par renforcement sécurisé existants contraignent le comportement des agents afin de limiter l'exploration, essentielle à la découverte de comportements coopératifs efficaces. Dans cet article, nous présentons la recherche par entropie (E2C), une méthode d'apprentissage par renforcement multi-agents contraint. L'E2C encourage l'exploration en maximisant l'entropie d'observation, facilitant ainsi l'apprentissage de comportements coopératifs sûrs et efficaces. De nombreux résultats expérimentaux démontrent que l'E2C est aussi performant, voire meilleur, que les modèles de base existants, avec ou sans contraintes, réduisant les comportements dangereux jusqu'à 50 %.