Cet article présente un nouveau cadre d'apprentissage par renforcement hors ligne en introduisant la divergence symétrique dans l'optimisation des politiques de régulation comportementale (BRPO). Les méthodes existantes se sont concentrées sur la divergence asymétrique, comme KL, pour obtenir des politiques de régularisation analytique et des objectifs de minimisation pratiques. Cet article montre que la divergence symétrique ne permet pas l'utilisation de politiques de régularisation analytique comme stratégie de régularisation et peut entraîner des problèmes numériques liés à la perte. Pour résoudre ces problèmes, nous utilisons la série de Taylor de la divergence f. Plus précisément, nous démontrons que les politiques analytiques peuvent être obtenues via une série finie. Pour la perte, la divergence symétrique peut être décomposée en un terme asymétrique et un terme conditionnellement symétrique, ce dernier étant développé par Taylor pour atténuer les problèmes numériques. Par conséquent, nous proposons l'algorithme Symmetric $f$ Actor-Critic (S$f$-AC), le premier algorithme BRPO pratique utilisant la divergence symétrique. L'approximation distributionnelle et les résultats expérimentaux MuJoCo confirment que S$f$-AC atteint des performances compétitives.