Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Actor-Crítico Suave con Recompensa Media

Created by
  • Haebom

Autor

Jacob Adamczyk, Volodymyr Makarenko, Stas Tiomkin, Rahul V. Kulkarni

Describir

Este artículo aborda el creciente interés en formulaciones de recompensa promedio para el aprendizaje por refuerzo (AR) que puedan resolver problemas a largo plazo sin descuento. En entornos de descuento, se han desarrollado algoritmos de regulación de entropía, que han demostrado un rendimiento superior al de los métodos deterministas. Sin embargo, no se han desarrollado algoritmos de AR profundos que aborden objetivos de recompensa promedio de regulación de entropía. Para abordar esta deficiencia, este artículo propone un algoritmo actor-crítico suave de recompensa promedio. Validamos nuestro método comparándolo con algoritmos de recompensa promedio existentes en parámetros de referencia de AR estándar, logrando un rendimiento superior para el criterio de recompensa promedio.

Takeaways, Limitations

Takeaways: Presentamos un novedoso algoritmo de aprendizaje por refuerzo profundo (actor-crítico suave de recompensa media) para la regulación por entropía del objetivo de recompensa media, demostrando la eficacia de la fórmula de recompensa media al superar a los algoritmos existentes en los parámetros estándar de aprendizaje por refuerzo. Presentamos un enfoque novedoso para resolver el problema de recompensa media utilizando el modelo actor-crítico.
Limitations: El rendimiento del algoritmo presentado podría estar limitado a un punto de referencia específico. Se requiere más investigación para determinar su rendimiento de generalización en diversos entornos. Se carece de un análisis del coste computacional y la complejidad del algoritmo.
👍