Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Régularisation du comportement symétrique via le développement de Taylor de la symétrie

Created by
  • Haebom

Auteur

Lingwei Zhu, Zheng Chen, Han Wang, Yukie Nagai

Contour

Cet article présente un nouveau cadre d'apprentissage par renforcement hors ligne en introduisant la divergence symétrique dans l'optimisation des politiques de régulation comportementale (BRPO). Les méthodes existantes se sont concentrées sur la divergence asymétrique, comme KL, pour obtenir des politiques de régularisation analytique et des objectifs de minimisation pratiques. Cet article montre que la divergence symétrique ne permet pas l'utilisation de politiques de régularisation analytique comme stratégie de régularisation et peut entraîner des problèmes numériques liés à la perte. Pour résoudre ces problèmes, nous utilisons la série de Taylor de la divergence f. Plus précisément, nous démontrons que les politiques analytiques peuvent être obtenues via une série finie. Pour la perte, la divergence symétrique peut être décomposée en un terme asymétrique et un terme conditionnellement symétrique, ce dernier étant développé par Taylor pour atténuer les problèmes numériques. Par conséquent, nous proposons l'algorithme Symmetric $f$ Actor-Critic (S$f$-AC), le premier algorithme BRPO pratique utilisant la divergence symétrique. L'approximation distributionnelle et les résultats expérimentaux MuJoCo confirment que S$f$-AC atteint des performances compétitives.

Takeaways, Limitations

Takeaways : Un nouvel algorithme d'apprentissage par renforcement hors ligne, S$f$-AC, est proposé, exploitant la divergence symétrique. Il surmonte les limites de l'algorithme BRPO existant et affiche des performances compétitives. Une solution numérique utilisant la série de Taylor de la divergence $f$ est également présentée.
Limitations: D'autres expériences sont nécessaires pour évaluer les performances de généralisation de la méthode proposée. D'autres évaluations des performances sont nécessaires dans divers environnements et tâches. Il n'existe pas de directives claires quant au choix de l'ordre des séries de Taylor.
👍