本稿では、大規模集団順次対称ゲームの近似ナッシュバランスを計算するためのオンライン平均フィールド強化学習アルゴリズムであるMF-OML(Mean-Field Occupation-Measure Learning)を提案します。 MF-OMLは、英合併ゲームと潜在的なゲームのバリエーションを超えてナッシュバランスを証明可能に解決する(最初の完全多項時間複雑さを持つマルチエージェント強化学習アルゴリズムです。強いLasry-Lions鍛造性条件を有するゲームの場合、ナッシュバランスからの累積偏差で評価したとき、$\tilde{O}(M^{3/4}+N^{-1/2}M)$の高確率後悔上限を達成し、Lasry-Lions鍛造性条件のみを有するゲームの場合$\tilde{O}{M^{ 1/6}M)$ の後悔上限を達成します。ここで、Mはエピソードの総数、Nはゲームのエージェントの数です。副産物として、単調平均場ゲームの近似ナッシュバランスを計算するための最初の扱いやすいグローバル収束計算アルゴリズムを取得します。