Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Accélération de l'apprentissage par renforcement quantique grâce à une approche basée sur le gradient de politique naturelle quantique

Created by
  • Haebom

Auteur

Yang Xu, Vaneet Aggarwal

Contour

Cet article aborde le problème de l'apprentissage quantique renforcé (QRL) à l'aide de processus de décision de Markov (MDP) accessibles aux oracles quantiques dans un environnement sans modèle. Nous présentons l'algorithme du gradient de politique naturelle quantique (QNPG), qui remplace l'échantillonnage aléatoire de l'algorithme classique du gradient de politique naturelle (NPG) par un schéma d'estimation de gradient déterministe, permettant une intégration transparente avec les systèmes quantiques. Cette modification introduit un biais borné dans l'estimateur, mais ce biais diminue exponentiellement avec l'augmentation du niveau de troncature. Nous montrons que l'algorithme QNPG atteint une complexité d'échantillon de $\tilde{\mathcal{O}}(\epsilon^{-1,5})$ pour les requêtes adressées aux oracles quantiques, améliorant significativement la borne inférieure classique $\tilde{\mathcal{O}}(\epsilon^{-2})$ pour les requêtes adressées aux MDP.

Takeaways, Limitations

Takeaways:
Nous présentons QNPG, un algorithme d'apprentissage par renforcement quantique efficace applicable aux systèmes quantiques.
Permet d'obtenir une complexité d'échantillon améliorée $\tilde{\mathcal{O}}(\epsilon^{-1,5})$ par rapport aux algorithmes classiques existants.
Améliorations des performances au-delà des limites inférieures classiques via une approche oracle quantique.
Limitations:
Il existe un biais limité dans le processus d’estimation du gradient de l’algorithme QNPG (mais il diminue de manière exponentielle).
Nécessite des hypothèses sur l’accessibilité de l’oracle quantique.
Une mise en œuvre et une évaluation des performances sur du matériel quantique réel sont nécessaires.
👍