Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Regularización del comportamiento simétrico mediante la expansión de simetría de Taylor

Created by
  • Haebom

Autor

Lingwei Zhu, Zheng Chen, Han Wang, Yukie Nagai

Describir

Este artículo presenta un nuevo marco de aprendizaje por refuerzo offline mediante la introducción de la divergencia simétrica en la optimización de políticas de regulación del comportamiento (BRPO). Los métodos existentes se han centrado en la divergencia asimétrica, como KL, para obtener políticas de regularización analítica y objetivos prácticos de minimización. Este artículo muestra que la divergencia simétrica no permite políticas de regularización analítica como estrategia de regularización y puede conducir a problemas numéricos como pérdida. Para abordar estos problemas, utilizamos la serie de Taylor de $f$-divergencia. Específicamente, demostramos que las políticas analíticas pueden obtenerse mediante una serie finita. Para la pérdida, la divergencia simétrica puede descomponerse en un término asimétrico y un término condicionalmente simétrico, y este último se expande mediante Taylor para aliviar los problemas numéricos. En consecuencia, proponemos Symmetric $f$ Actor-Critic (S$f$-AC), el primer algoritmo BRPO práctico que utiliza divergencia simétrica. La aproximación distribucional y los resultados experimentales de MuJoCo confirman que S$f$-AC logra un rendimiento competitivo.

Takeaways, Limitations

Takeaways: Se propone un nuevo algoritmo de aprendizaje por refuerzo fuera de línea, S$f$-AC, que utiliza divergencia simétrica. Este algoritmo supera las limitaciones del algoritmo BRPO existente y demuestra un rendimiento competitivo. También se presenta una solución numérica que utiliza la serie de Taylor de $f$-divergencia.
Limitations: Se requieren más experimentos para evaluar el rendimiento de generalización del método propuesto. Se requieren evaluaciones adicionales de rendimiento en diversos entornos y tareas. No existe una guía clara sobre la elección del orden de la serie de Taylor.
👍