Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Exploración optimista para el aprendizaje de refuerzo restringido con aversión al riesgo

Created by
  • Haebom

Autor

James McCarthy, Radu Marinescu, Elizabeth Daly, Ivana Dusparic

Describir

Este artículo propone el algoritmo Actor-Crítico Optimista con Aversión al Riesgo (ORAC) para abordar el problema de la exploración conservadora en el aprendizaje de refuerzo restringido con aversión al riesgo (RaCRL), que conduce a una convergencia de políticas subóptima. ORAC construye una política de exploración que maximiza el intervalo de confianza superior de la función de recompensa-valor de estado-acción y minimiza el intervalo de confianza inferior de la función de costo-valor de estado-acción con aversión al riesgo. Fomenta la exploración de regiones inciertas para descubrir estados de alta recompensa, cumpliendo las restricciones de seguridad, y demuestra mejores equilibrios entre recompensa y costo en comparación con los métodos existentes en tareas de control continuo como Safety-Gymnasium y CityLearn.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo enfoque basado en búsqueda que aborda eficazmente el problema de la convergencia hacia políticas subóptimas en el aprendizaje de refuerzo restringido con aversión al riesgo.
El aprendizaje de políticas permite explorar eficazmente regiones ambientales inciertas y satisfacer restricciones de seguridad al tiempo que se maximizan las recompensas.
Mejoras de rendimiento demostradas experimentalmente en varias tareas de control continuo como Safety-Gymnasium y CityLearn.
Proporciona un equilibrio eficiente entre recompensa y riesgo.
Limitations:
El rendimiento del algoritmo propuesto puede depender de entornos específicos. Se requiere más investigación para determinar su rendimiento de generalización en diversos entornos.
La estimación precisa de los intervalos de confianza superior e inferior puede afectar significativamente el rendimiento del algoritmo. Es necesario mejorar los métodos de estimación de intervalos de confianza.
Los costos computacionales pueden ser elevados en entornos complejos. Se necesita investigación para mejorar la eficiencia computacional.
👍