Este artículo propone nuevos algoritmos clásicos y cuánticos en línea para procesos de decisión de Markov (MDP) de recompensa media de horizonte finito e infinito. El algoritmo propuesto se basa en un modelo híbrido de aprendizaje por refuerzo (AR) exploratorio-generativo, en el que los agentes pueden interactuar libremente con el entorno, en ocasiones mediante muestreo generativo (es decir, accediendo a un simulador). Mediante el uso de algoritmos clásicos y cuánticos para aproximar políticas óptimas en modelos generativos, demostramos que, al calcular y utilizar directamente políticas óptimas, evitamos varios paradigmas de AR, como el "optimismo bajo incertidumbre" y el "muestreo posterior", y obtenemos límites de arrepentimiento más precisos que estudios previos. Para MDP de horizonte finito, el algoritmo cuántico obtiene un límite de arrepentimiento que depende únicamente logarítmicamente del número de pasos de tiempo T, superando así el límite clásico $O(\sqrt{T})$. Esto es coherente con la dependencia temporal de estudios cuánticos previos de Ganguly et al. (arXiv'23) y Zhong et al. (ICML'24), pero con una dependencia mejorada de otros parámetros, como el tamaño S del espacio de estados y el tamaño A del espacio de acción. Para MDP de horizonte infinito, los límites clásicos y cuánticos aún mantienen la dependencia $O(\sqrt{T})$, pero presentan mejores coeficientes S y A. No obstante, proponemos una nueva métrica de arrepentimiento para MDP de horizonte infinito, que demuestra que los algoritmos cuánticos tienen un arrepentimiento $\operatorname{poly}\log{T}$ exponencialmente mejor que los algoritmos clásicos. Finalmente, generalizamos todos los resultados a espacios de estados compactos.