यह शोधपत्र व्यवहार नियमन नीति अनुकूलन (BRPO) में सममित विचलन को शामिल करके एक नवीन ऑफ़लाइन सुदृढीकरण अधिगम ढाँचा प्रस्तुत करता है। विश्लेषणात्मक नियमन नीतियाँ और व्यावहारिक न्यूनीकरण उद्देश्य प्राप्त करने के लिए, मौजूदा विधियाँ, जैसे KL, असममित विचलन पर केंद्रित रही हैं। यह शोधपत्र दर्शाता है कि सममित विचलन, विश्लेषणात्मक नियमन नीतियों को नियमन रणनीति के रूप में स्वीकार नहीं करता है और इससे हानि के रूप में संख्यात्मक समस्याएँ उत्पन्न हो सकती हैं। इन समस्याओं के समाधान के लिए, हम $f$-विचलन की टेलर श्रेणी का उपयोग करते हैं। विशेष रूप से, हम प्रदर्शित करते हैं कि विश्लेषणात्मक नीतियाँ एक परिमित श्रेणी के माध्यम से प्राप्त की जा सकती हैं। हानि के लिए, सममित विचलन को एक असममित पद और एक सशर्त सममित पद में विघटित किया जा सकता है, और संख्यात्मक समस्याओं को कम करने के लिए बाद वाले को टेलर-विस्तारित किया जाता है। परिणामस्वरूप, हम सममित $f$ अभिनेता-आलोचक (S$f$-AC) प्रस्तावित करते हैं, जो सममित विचलन का उपयोग करने वाला पहला व्यावहारिक BRPO एल्गोरिथम है। वितरणात्मक सन्निकटन और MuJoCo प्रयोगात्मक परिणाम इस बात की पुष्टि करते हैं कि S$f$-AC प्रतिस्पर्धी प्रदर्शन प्राप्त करता है।