यह शोधपत्र ADVICE (एडेप्टिव शील्डिंग विद अ कॉन्ट्रास्टिव ऑटोएनकोडर) प्रस्तुत करता है, जो रीइन्फोर्समेंट लर्निंग (RL) एजेंटों के सुरक्षित अन्वेषण के लिए एक नवीन पोस्ट-प्रोसेसिंग तकनीक है। यह बिना पूर्व ज्ञान के ब्लैक-बॉक्स वातावरण में RL एजेंटों को प्रशिक्षित करते समय उत्पन्न होने वाले सुरक्षा जोखिमों को कम करने पर केंद्रित है। ADVICE, अवस्था-क्रिया युग्मों की सुरक्षित और असुरक्षित विशेषताओं के बीच अंतर करता है, जिससे एजेंट को ऐसी क्रियाएँ करने से बचाया जा सकता है जिनसे असुरक्षित परिणाम होने की संभावना हो। प्रायोगिक परिणाम दर्शाते हैं कि यह मौजूदा सुरक्षित RL अन्वेषण तकनीकों की तुलना में सुरक्षा उल्लंघनों को लगभग 50% तक कम करता है, साथ ही प्रतिस्पर्धी पुरस्कार भी प्राप्त करता है।