Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Un peu de liberté mène loin : algorithmes classiques et quantiques pour l'apprentissage par renforcement dans un modèle génératif

Created by
  • Haebom

Auteur

Andris Ambainis, Joao F. Doriguello, Debbie Lim

Contour

Cet article propose de nouveaux algorithmes classiques et quantiques en ligne pour les processus de décision markoviens (MDP) à récompense moyenne à horizon fini et à horizon infini. L'algorithme proposé est basé sur un modèle hybride d'apprentissage par renforcement (RL) exploratoire-génératif dans lequel les agents peuvent interagir librement avec l'environnement, parfois par échantillonnage génératif (c'est-à-dire en accédant à un « simulateur »). En utilisant des algorithmes classiques et quantiques pour approximer les politiques optimales dans les modèles génératifs, nous démontrons qu'en calculant et en utilisant directement des politiques optimales, nous évitons plusieurs paradigmes RL, tels que « l'optimisme sous incertitude » et « l'échantillonnage a posteriori », et obtenons de meilleures limites de regret que les études précédentes. Pour les MDP à horizon fini, l'algorithme quantique obtient une limite de regret qui ne dépend que logarithmiquement du nombre de pas de temps T, surmontant ainsi la limite classique $O(\sqrt{T})$. Ceci est cohérent avec la dépendance temporelle des études quantiques précédentes de Ganguly et al. (arXiv'23) et Zhong et al. (ICML'24), mais avec une dépendance améliorée sur d'autres paramètres, tels que la taille de l'espace d'état S et la taille de l'espace d'action A. Pour les MDP à horizon infini, les bornes classiques et quantiques maintiennent toujours la dépendance $O(\sqrt{T})$, mais ont de meilleurs coefficients S et A. Néanmoins, nous proposons une nouvelle métrique de regret pour les MDP à horizon infini, démontrant que les algorithmes quantiques ont un regret $\operatorname{poly}\log{T}$ exponentiellement meilleur que les algorithmes classiques. Enfin, nous généralisons tous les résultats aux espaces d'état compacts.

Takeaways, Limitations

Takeaways:
Nous présentons un algorithme quantique qui surmonte la limite classique $O(\sqrt{T})$ dans les MDP à horizon fini.
ÉViter le paradigme des algorithmes d'apprentissage par renforcement existants (optimisme, échantillonnage postérieur) et calculer directement la politique optimale pour améliorer la limite de regret.
Une nouvelle métrique de regret pour les MDP à horizon infini et l'obtention de regrets $\operatorname{poly}\log{T}$ pour les algorithmes quantiques.
Généralisation des résultats aux espaces d’état compacts.
Limitations:
Suppose l'accessibilité aux modèles génératifs (simulateurs). Des recherches supplémentaires sont nécessaires pour déterminer leur applicabilité dans des environnements réels.
Des recherches supplémentaires sont nécessaires sur la mise en œuvre pratique et l’évaluation des performances des algorithmes quantiques.
L'optimalité pour une configuration de problème spécifique peut ne pas être garantie. (Implicite Limitations)
👍