Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Un poco de libertad rinde mucho: algoritmos clásicos y cuánticos para el aprendizaje por refuerzo bajo un modelo generativo

Created by
  • Haebom

Autor

Andris Ambainis, Joao F. Doriguello, Debbie Lim

Describir

Este artículo propone nuevos algoritmos clásicos y cuánticos en línea para procesos de decisión de Markov (MDP) de recompensa media de horizonte finito e infinito. El algoritmo propuesto se basa en un modelo híbrido de aprendizaje por refuerzo (AR) exploratorio-generativo, en el que los agentes pueden interactuar libremente con el entorno, en ocasiones mediante muestreo generativo (es decir, accediendo a un simulador). Mediante el uso de algoritmos clásicos y cuánticos para aproximar políticas óptimas en modelos generativos, demostramos que, al calcular y utilizar directamente políticas óptimas, evitamos varios paradigmas de AR, como el "optimismo bajo incertidumbre" y el "muestreo posterior", y obtenemos límites de arrepentimiento más precisos que estudios previos. Para MDP de horizonte finito, el algoritmo cuántico obtiene un límite de arrepentimiento que depende únicamente logarítmicamente del número de pasos de tiempo T, superando así el límite clásico $O(\sqrt{T})$. Esto es coherente con la dependencia temporal de estudios cuánticos previos de Ganguly et al. (arXiv'23) y Zhong et al. (ICML'24), pero con una dependencia mejorada de otros parámetros, como el tamaño S del espacio de estados y el tamaño A del espacio de acción. Para MDP de horizonte infinito, los límites clásicos y cuánticos aún mantienen la dependencia $O(\sqrt{T})$, pero presentan mejores coeficientes S y A. No obstante, proponemos una nueva métrica de arrepentimiento para MDP de horizonte infinito, que demuestra que los algoritmos cuánticos tienen un arrepentimiento $\operatorname{poly}\log{T}$ exponencialmente mejor que los algoritmos clásicos. Finalmente, generalizamos todos los resultados a espacios de estados compactos.

Takeaways, Limitations

Takeaways:
Presentamos un algoritmo cuántico que supera el límite clásico $O(\sqrt{T})$ en MDP de horizonte finito.
Evitar el paradigma de los algoritmos de aprendizaje de refuerzo existentes (optimismo, muestreo posterior) y calcular directamente la política óptima para mejorar el límite de arrepentimiento.
Una nueva métrica de arrepentimiento para MDP de horizonte infinito y la consecución de un arrepentimiento $\operatorname{poly}\log{T}$ para algoritmos cuánticos.
Generalizando los resultados a espacios de estados compactos.
Limitations:
Se asume la accesibilidad a modelos generativos (simuladores). Se requiere más investigación para determinar su aplicabilidad en entornos reales.
Se necesita más investigación sobre la implementación práctica y la evaluación del rendimiento de los algoritmos cuánticos.
No se puede garantizar la optimalidad para una configuración de problema específica. (Implica Limitations)
👍