Cet article présente ADVICE (Adaptive Shielding with a Contrastive Autoencoder), une nouvelle technique de post-traitement pour l'exploration sécurisée des agents d'apprentissage par renforcement (RL). Elle vise à réduire les risques de sécurité liés à l'apprentissage par renforcement dans des environnements de type boîte noire, sans connaissances préalables. ADVICE distingue les caractéristiques sûres et non sûres des paires état-action, protégeant ainsi l'agent contre les actions susceptibles d'entraîner des résultats dangereux. Les résultats expérimentaux démontrent qu'elle réduit les violations de sécurité d'environ 50 % par rapport aux techniques d'exploration RL sécurisées existantes, tout en offrant des avantages compétitifs.