Dans cet article, nous étudions la politique de l'indice de Lagrange (LIP) pour le problème des bandits multi-bras agités avec récompense moyenne à long terme. Nous comparons notamment les performances de LIP, une politique heuristique connue pour être asymptotiquement optimale dans certaines conditions naturelles, avec la politique de l'indice de Whittle (WIP). Dans la plupart des cas, les deux politiques fonctionnent de manière très similaire, mais LIP conserve de très bonnes performances même lorsque celles de WIP se dégradent. Afin d'obtenir un schéma d'apprentissage en ligne pour LIP dans un environnement sans modèle, nous proposons un algorithme d'apprentissage par renforcement tabulaire et basé sur des réseaux de neurones. Le schéma d'apprentissage par renforcement proposé pour LIP nécessite beaucoup moins de mémoire que le schéma similaire pour WIP. Nous calculons analytiquement l'indice de Lagrange pour le modèle de redémarrage appliqué à l'exploration Web optimale et à la minimisation du vieillissement pondéré de l'information. De plus, nous présentons une nouvelle preuve de l'optimalité asymptotique dans le cas de bras homogènes lorsque le nombre de bras tend vers l'infini, basée sur l'échangeabilité et le théorème de De Finetti.