Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Exploración basada en datos para una clase de problemas de aprendizaje por refuerzo lineal-cuadrático indefinido de tiempo continuo

Created by
  • Haebom

Autor

Yilie Huang, Xun Yu Zhou

Describir

Este artículo estudia el aprendizaje por refuerzo (AR) para una clase de problemas similares a los problemas de control lineal-cuadrático (LQ) estocásticos de tiempo continuo, analizados en Huang et al. (2024). El estado es un problema escalar, y la variabilidad depende tanto del estado como del control en ausencia de una recompensa por el control de ejecución. En este artículo, proponemos un mecanismo de búsqueda basado en datos y sin modelo que ajusta adaptativamente la regulación de entropía por parte del crítico y la divergencia de políticas por parte del agente. A diferencia de los programas de búsqueda fijos o deterministas utilizados en estudios previos (Huang et al., 2024), el enfoque de búsqueda adaptativa propuesto mejora la eficiencia del aprendizaje con ajustes mínimos. A pesar de su flexibilidad, nuestro método logra un límite de arrepentimiento cuasi-lineal que coincide con los mejores resultados sin modelo para esta clase de problemas LQ, que anteriormente solo se obtenían con programas de búsqueda fijos. Los experimentos numéricos muestran que la búsqueda adaptativa acelera la convergencia y mejora el rendimiento del arrepentimiento en comparación con los métodos no adaptativos basados en modelos y basados en modelos.

Takeaways, Limitations

Takeaways:
Demostramos que la eficiencia del aprendizaje de refuerzo se puede mejorar mediante un mecanismo de búsqueda adaptativo.
Conseguir límites de arrepentimiento semilineales de última generación con ajustes mínimos.
Se demostró experimentalmente una mejora en la velocidad de convergencia y una mejora en el rendimiento del arrepentimiento en comparación con los métodos no adaptativos.
Limitations:
Actualmente solo es aplicable a ciertos tipos de problemas LQ donde no hay un estado de valor escalar ni recompensa de control de ejecución.
Se necesitan más investigaciones para determinar la generalización a sistemas más complejos o entornos de problemas diversos.
Limitaciones del análisis del rendimiento teórico del mecanismo de búsqueda adaptativa propuesto.
👍