Cet article présente PAC-MCoFL, un cadre d'apprentissage par renforcement multi-agents (MARL) basé sur la théorie des jeux, permettant d'aborder la dynamique non coopérative de l'apprentissage fédéré (FL) dans un écosystème multi-fournisseurs de services (SP). PAC-MCoFL traite les fournisseurs de services comme des agents et optimise conjointement l'affectation des clients, la quantification adaptative et l'allocation des ressources. Il intègre le principe Pareto-Acteur-Critique (PAC) et la régression prédictive pour atteindre l'équilibre Pareto-optimal, modélise des profils de risque hétérogènes et gère efficacement les espaces d'action de grande dimension grâce à un mécanisme de décomposition cartésienne trinomiale (TCAD). De plus, nous développons une variante évolutive, PAC-MCoFL-p, dotée d'un générateur d'hypothèses paramétrées qui réduit considérablement la complexité de calcul et limite étroitement l'erreur. Des simulations approfondies, ainsi que des garanties de convergence théorique, démontrent sa supériorité sur les solutions MARL de pointe existantes, améliorant la récompense totale et l'indice d'hypervolume (HVI) d'environ 5,8 % et 4,2 %, respectivement.