Este artículo presenta ADVICE (Adaptive Shielding with a Contrastive Autoencoder), una novedosa técnica de posprocesamiento para la exploración segura de agentes de aprendizaje por refuerzo (RL). Se centra en la reducción de los riesgos de seguridad que surgen al entrenar agentes de RL en entornos de caja negra sin conocimiento previo. ADVICE distingue entre características seguras e inseguras de los pares estado-acción, protegiendo así al agente de realizar acciones que puedan conducir a resultados inseguros. Los resultados experimentales demuestran que reduce las violaciones de seguridad en aproximadamente un 50 % en comparación con las técnicas existentes de exploración segura de RL, a la vez que logra recompensas competitivas.