यह पत्र कृत्रिम बुद्धिमत्ता में एक मुख्य चुनौती को संबोधित करता है: अज्ञात वातावरण में एजेंटों को नियंत्रित करने और प्रदर्शन मेट्रिक्स को अनुकूलित करने के लिए प्रभावी नीति सीखना। ऑफ-पॉलिसी लर्निंग विधियां, जैसे कि क्यू-लर्निंग, शिक्षार्थियों को पिछले अनुभव के आधार पर इष्टतम निर्णय लेने की अनुमति देती हैं। यह पत्र जटिल, उच्च-आयामी डोमेन में पक्षपाती डेटा से ऑफ-पॉलिसी लर्निंग का अध्ययन करता है जहां अप्रत्याशित भ्रमित चर को पहले से बाहर नहीं किया जा सकता है। प्रसिद्ध डीप क्यू-नेटवर्क (DQN) के आधार पर, हम एक उपन्यास डीप रीइन्फोर्समेंट लर्निंग एल्गोरिदम का प्रस्ताव करते हैं जो देखे गए डेटा भ्रमित पूर्वाग्रहों के लिए मजबूत है। विशेष रूप से, एल्गोरिदम सबसे खराब स्थिति वाले वातावरण के लिए एक सुरक्षित नीति खोजने का प्रयास करता है जो अवलोकनों के अनुकूल हो।