Cet article aborde le problème de l'apprentissage quantique renforcé (QRL) à l'aide de processus de décision de Markov (MDP) accessibles aux oracles quantiques dans un environnement sans modèle. Nous présentons l'algorithme du gradient de politique naturelle quantique (QNPG), qui remplace l'échantillonnage aléatoire de l'algorithme classique du gradient de politique naturelle (NPG) par un schéma d'estimation de gradient déterministe, permettant une intégration transparente avec les systèmes quantiques. Cette modification introduit un biais borné dans l'estimateur, mais ce biais diminue exponentiellement avec l'augmentation du niveau de troncature. Nous montrons que l'algorithme QNPG atteint une complexité d'échantillon de $\tilde{\mathcal{O}}(\epsilon^{-1,5})$ pour les requêtes adressées aux oracles quantiques, améliorant significativement la borne inférieure classique $\tilde{\mathcal{O}}(\epsilon^{-2})$ pour les requêtes adressées aux MDP.