यह शोधपत्र सुदृढीकरण अधिगम (आर.एल.) में गोपनीयता संबंधी मुद्दों, विशेष रूप से साइबर-भौतिक प्रणालियों (सी.पी.एस.) में गोपनीयता अनुमान हमलों के जोखिम पर केंद्रित है। मौजूदा केंद्रीकृत विभेदक गोपनीयता (डी.पी.) मॉडल विश्वसनीय सर्वरों पर निर्भर करते हैं, जबकि वितरित स्थानीय मॉडल गंभीर प्रदर्शन ह्रास से ग्रस्त हैं। इसलिए, यह शोधपत्र एपिसोडिक आर.एल., शफल विभेदक गोपनीयता नीति उन्मूलन (एस.डी.पी.-पी.ई.) के लिए एक नवीन एल्गोरिथ्म प्रस्तावित करता है, जो शफल मॉडल, एक मध्यवर्ती विश्वास मॉडल, का उपयोग करता है। एस.डी.पी.-पी.ई. एक घातांकीय बैच शेड्यूल और एक "भूल" तंत्र को लागू करके गोपनीयता और अधिगम प्रदर्शन को संतुलित करता है, एक लगभग इष्टतम पछतावे की ऊपरी सीमा प्राप्त करता है और स्थानीय मॉडलों की तुलना में बेहतर गोपनीयता-पछतावे का संतुलन प्रदान करता है। यह सुरक्षित डेटा-संचालित सी.पी.एस. नियंत्रण के लिए शफल मॉडल की प्रयोज्यता को प्रदर्शित करता है।