यह शोधपत्र स्वचालित वाहनों में नैतिक निर्णय लेने के लिए एक पदानुक्रमित सुरक्षित सुदृढीकरण अधिगम (सेफ आरएल) ढाँचा प्रस्तुत करता है। यह ढाँचा एक सुरक्षित आरएल एजेंट के इर्द-गिर्द डिज़ाइन किया गया है जो नैतिक जोखिम लागतों का उपयोग करके उच्च-स्तरीय कार्य लक्ष्य उत्पन्न करता है, जो दुर्घटना की संभावना और क्षति की गंभीरता को एक साथ जोड़ते हैं। यह दुर्लभ लेकिन महत्वपूर्ण उच्च-जोखिम वाली घटनाओं के बारे में सीखने को बढ़ाने के लिए एक गतिशील प्राथमिकता वाले अनुभव पुनरावृत्ति तंत्र का लाभ उठाता है, और बहुपद पथ नियोजन और पीआईडी और स्टेनली नियंत्रकों के माध्यम से सुचारू, व्यवहार्य प्रक्षेप पथ उत्पन्न करता है। वास्तविक-विश्व यातायात डेटासेट का उपयोग करके प्रशिक्षण और सत्यापन, नैतिक जोखिम न्यूनीकरण और ड्राइविंग प्रदर्शन रखरखाव के संदर्भ में मौजूदा विधियों की तुलना में बेहतर प्रदर्शन प्रदर्शित करता है। उल्लेखनीय रूप से, यह वास्तविक-विश्व, मिश्रित-यातायात परिदृश्य में स्वचालित वाहनों में नैतिक निर्णय लेने का मूल्यांकन करने वाला पहला सुरक्षित आरएल अध्ययन है।