Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Politique d'indice lagrangien pour les bandits agités avec récompense moyenne

Created by
  • Haebom

Auteur

Konstantin Avrachenkov, Vivek S. Borkar, Pratik Shah

Contour

Dans cet article, nous étudions la politique de l'indice de Lagrange (LIP) pour le problème des bandits multi-bras agités avec récompense moyenne à long terme. Nous comparons notamment les performances de LIP, une politique heuristique connue pour être asymptotiquement optimale dans certaines conditions naturelles, avec la politique de l'indice de Whittle (WIP). Dans la plupart des cas, les deux politiques fonctionnent de manière très similaire, mais LIP conserve de très bonnes performances même lorsque celles de WIP se dégradent. Afin d'obtenir un schéma d'apprentissage en ligne pour LIP dans un environnement sans modèle, nous proposons un algorithme d'apprentissage par renforcement tabulaire et basé sur des réseaux de neurones. Le schéma d'apprentissage par renforcement proposé pour LIP nécessite beaucoup moins de mémoire que le schéma similaire pour WIP. Nous calculons analytiquement l'indice de Lagrange pour le modèle de redémarrage appliqué à l'exploration Web optimale et à la minimisation du vieillissement pondéré de l'information. De plus, nous présentons une nouvelle preuve de l'optimalité asymptotique dans le cas de bras homogènes lorsque le nombre de bras tend vers l'infini, basée sur l'échangeabilité et le théorème de De Finetti.

Takeaways, Limitations

Takeaways:
Nous démontrons expérimentalement les performances supérieures du LIP sur le problème des bandits multi-bras agités. En particulier, le LIP maintient des performances stables même lorsque le WIP est peu performant.
Nous proposons un algorithme d'apprentissage par renforcement efficace en termes de mémoire pour LIP.
Nous fournissons un calcul analytique des indices de Lagrange pour les modèles de redémarrage.
Pour les bras homogènes, nous présentons une nouvelle preuve d'optimalité asymptotique pour les bras infinis.
Limitations:
La comparaison des performances entre WIP et LIP a été réalisée dans des conditions spécifiques, et on ne peut pas conclure que LIP est supérieur à WIP dans tous les cas.
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de l’algorithme d’apprentissage par renforcement proposé.
Les calculs analytiques sont limités à un modèle spécifique (le modèle de redémarrage). Une généralisation à d'autres modèles est nécessaire.
👍