यह शोधपत्र जोखिम-प्रतिकूल बाध्य सुदृढीकरण अधिगम (RaCRL) में रूढ़िवादी अन्वेषण की समस्या का समाधान करने के लिए आशावादी जोखिम-प्रतिकूल अभिनेता-आलोचक (ORAC) एल्गोरिथम प्रस्तावित करता है, जो उप-इष्टतम नीति अभिसरण की ओर ले जाता है। ORAC एक अन्वेषण नीति का निर्माण करता है जो अवस्था-क्रिया पुरस्कार-मूल्य फलन के ऊपरी विश्वास अंतराल को अधिकतम करता है और जोखिम-प्रतिकूल अवस्था-क्रिया लागत-मूल्य फलन के निम्न विश्वास अंतराल को न्यूनतम करता है। यह सुरक्षा बाधाओं को संतुष्ट करते हुए उच्च-प्रतिकूल अवस्थाओं की खोज के लिए अनिश्चित क्षेत्रों के अन्वेषण को प्रोत्साहित करता है, और सेफ्टी-जिम्नेजियम और सिटीलर्न जैसे सतत नियंत्रण कार्यों में मौजूदा विधियों की तुलना में बेहतर पुरस्कार-लागत व्यापार-नापसंद प्रदर्शित करता है।