Este artículo presenta un nuevo marco de aprendizaje por refuerzo offline mediante la introducción de la divergencia simétrica en la optimización de políticas de regulación del comportamiento (BRPO). Los métodos existentes se han centrado en la divergencia asimétrica, como KL, para obtener políticas de regularización analítica y objetivos prácticos de minimización. Este artículo muestra que la divergencia simétrica no permite políticas de regularización analítica como estrategia de regularización y puede conducir a problemas numéricos como pérdida. Para abordar estos problemas, utilizamos la serie de Taylor de $f$-divergencia. Específicamente, demostramos que las políticas analíticas pueden obtenerse mediante una serie finita. Para la pérdida, la divergencia simétrica puede descomponerse en un término asimétrico y un término condicionalmente simétrico, y este último se expande mediante Taylor para aliviar los problemas numéricos. En consecuencia, proponemos Symmetric $f$ Actor-Critic (S$f$-AC), el primer algoritmo BRPO práctico que utiliza divergencia simétrica. La aproximación distribucional y los resultados experimentales de MuJoCo confirman que S$f$-AC logra un rendimiento competitivo.