Este artículo presenta el algoritmo de conjunto de seguridad implícito, un algoritmo de control de seguridad sin modelo que garantiza la seguridad de los agentes de aprendizaje de refuerzo profundo (DRL). Mientras que los métodos DRL existentes tienen dificultades para garantizar la seguridad, nuestro algoritmo genera índices de seguridad (certificados de barrera) y leyes de control de seguridad utilizando únicamente funciones dinámicas de caja negra (p. ej., simuladores de gemelos digitales). Demostramos teóricamente la convergencia a un conjunto seguro en tiempo finito y la invariancia hacia adelante para sistemas continuos y discretos. Además, demostramos nuestro rendimiento en el benchmark Safety Gym, alcanzando una recompensa acumulada del 95 % ± 9 %, superando al método DRL seguro de vanguardia existente, sin violaciones de seguridad. Asimismo, demostramos la escalabilidad a sistemas de alta dimensión mediante computación paralela.