Cet article propose Mean-Field Occupation-Measure Learning (MF-OML), un algorithme d'apprentissage par renforcement en champ moyen en ligne pour le calcul d'équilibres de Nash approximatifs de jeux collectifs séquentiellement symétriques à grande échelle. MF-OML est le premier algorithme d'apprentissage par renforcement multi-agents entièrement polynomial qui résout de manière prouvable les équilibres de Nash (avec des erreurs d'approximation de champ moyen qui disparaissent lorsque le nombre de joueurs N tend vers l'infini) au-delà des jeux à somme nulle et des variantes de jeux latents. Pour les jeux avec une forte monotonie de Lasry-Lions, il atteint une borne supérieure de regret à forte probabilité de $\tilde{O}(M^{3/4}+N^{-1/2}M)$, telle que mesurée par l'écart cumulé par rapport à l'équilibre de Nash, et pour les jeux avec seulement une monotonie de Lasry-Lions, il atteint une borne supérieure de regret de $\tilde{O}(M^{11/12}+N^{- 1/6}M)$, où M est le nombre total d'épisodes et N est le nombre d'agents dans le jeu. En tant que sous-produit, nous obtenons le premier algorithme de calcul globalement convergent traitable pour le calcul d'équilibres de Nash approximatifs de jeux monotones à champ moyen.