Cet article propose de nouveaux algorithmes classiques et quantiques en ligne pour les processus de décision markoviens (MDP) à récompense moyenne à horizon fini et à horizon infini. L'algorithme proposé est basé sur un modèle hybride d'apprentissage par renforcement (RL) exploratoire-génératif dans lequel les agents peuvent interagir librement avec l'environnement, parfois par échantillonnage génératif (c'est-à-dire en accédant à un « simulateur »). En utilisant des algorithmes classiques et quantiques pour approximer les politiques optimales dans les modèles génératifs, nous démontrons qu'en calculant et en utilisant directement des politiques optimales, nous évitons plusieurs paradigmes RL, tels que « l'optimisme sous incertitude » et « l'échantillonnage a posteriori », et obtenons de meilleures limites de regret que les études précédentes. Pour les MDP à horizon fini, l'algorithme quantique obtient une limite de regret qui ne dépend que logarithmiquement du nombre de pas de temps T, surmontant ainsi la limite classique $O(\sqrt{T})$. Ceci est cohérent avec la dépendance temporelle des études quantiques précédentes de Ganguly et al. (arXiv'23) et Zhong et al. (ICML'24), mais avec une dépendance améliorée sur d'autres paramètres, tels que la taille de l'espace d'état S et la taille de l'espace d'action A. Pour les MDP à horizon infini, les bornes classiques et quantiques maintiennent toujours la dépendance $O(\sqrt{T})$, mais ont de meilleurs coefficients S et A. Néanmoins, nous proposons une nouvelle métrique de regret pour les MDP à horizon infini, démontrant que les algorithmes quantiques ont un regret $\operatorname{poly}\log{T}$ exponentiellement meilleur que les algorithmes classiques. Enfin, nous généralisons tous les résultats aux espaces d'état compacts.