본 논문은 강화학습(RL) 에이전트의 안전한 탐색을 위한 새로운 후처리 기법인 ADVICE (Adaptive Shielding with a Contrastive Autoencoder)를 제시합니다. 기존 지식이 없는 블랙박스 환경에서 RL 에이전트를 훈련시킬 때 발생하는 안전 위험을 줄이는 데 초점을 맞추고 있습니다. ADVICE는 상태-행동 쌍의 안전한 특징과 불안전한 특징을 구분하고, 이를 통해 위험한 결과를 초래할 가능성이 높은 행동을 수행하지 못하도록 에이전트를 보호합니다. 실험 결과, 기존 안전 강화학습 탐색 기법들에 비해 안전 위반을 약 50% 감소시키면서 경쟁력 있는 보상 결과를 달성했습니다.