Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Métodos eficientes de aprendizaje $Q$ y actor-crítico para un aprendizaje de refuerzo robusto con recompensa promedio

Created by
  • Haebom

Autor

Yang Xu, Swetha Ganesh, Vaneet Aggarwal

Describir

Este artículo presenta un análisis de convergencia no asintótica de algoritmos de aprendizaje Q y actor-crítico para procesos de decisión de Markov (MDP) robustos de recompensa-media bajo contaminación, distancia de variación total (TV) y conjuntos de incertidumbre de Wasserstein. El elemento clave del análisis es mostrar que el operador Q robusto óptimo es estrictamente contráctil para cuasi-normas cuidadosamente diseñadas (excluyendo funciones constantes). Esta propiedad permite una actualización aproximada probabilística que aprende la función Q robusta óptima utilizando $\tilde{\mathcal{O}}(\epsilon^{-2})$ muestras. Además, proporcionamos una rutina eficiente para la estimación robusta de la función Q, que facilita la estimación robusta del crítico. Con base en esto, presentamos un algoritmo actor-crítico que aprende políticas robustas $\epsilon$-óptimas dentro de $\tilde{\mathcal{O}}(\epsilon^{-2})$ muestras. Se proporcionan simulaciones numéricas para evaluar el rendimiento del algoritmo.

Takeaways, Limitations

Takeaways:
Proporcionamos una base teórica al proporcionar un análisis de convergencia no asintótica de algoritmos de aprendizaje Q y de actor-crítico para MDP de recompensa media robustos.
Demostramos la contractilidad estricta del operador Q robusto óptimo, proporcionando una base para diseñar algoritmos de aprendizaje eficientes.
Presentamos un algoritmo eficiente y robusto de aprendizaje de políticas y funciones Q que logra una complejidad de muestra de $\tilde{\mathcal{O}}(\epsilon^{-2})$.
Limitations:
Se necesita una mayor validación experimental del rendimiento del algoritmo en aplicaciones del mundo real.
Se necesitan más investigaciones sobre la generalización de los resultados a diferentes tipos de conjuntos de incertidumbre.
Se requiere un análisis de la complejidad computacional de los algoritmos en espacios de estados de alta dimensión.
👍