Cet article présente l'algorithme de l'ensemble de sécurité implicite, un algorithme de contrôle de sécurité sans modèle qui garantit la sécurité des agents d'apprentissage par renforcement profond (DRL). Alors que les méthodes DRL existantes peinent à garantir la sécurité, notre algorithme génère des indices de sécurité (certificats de barrière) et des lois de contrôle de sécurité en utilisant uniquement des fonctions dynamiques de type boîte noire (par exemple, des simulateurs de jumeaux numériques). Nous prouvons théoriquement la convergence vers un ensemble sûr en temps fini et l'invariance directe pour les systèmes continus et discrets. De plus, nous démontrons nos performances sur le benchmark Safety Gym, obtenant une récompense cumulée de 95 % ± 9 %, surpassant la méthode DRL sûre de pointe existante, sans violation de sécurité. Enfin, nous démontrons l'évolutivité vers des systèmes de grande dimension grâce au calcul parallèle.