Este artículo presenta PAC-MCoFL, un marco de aprendizaje por refuerzo multiagente (MARL) basado en teoría de juegos para abordar la dinámica no cooperativa del aprendizaje federado (AF) en un ecosistema multiproveedor de servicios (PS). PAC-MCoFL considera a los proveedores de servicios como agentes y optimiza conjuntamente la asignación de clientes, la cuantificación adaptativa y la asignación de recursos. Integra el principio Pareto Actor-Crítico (PAC) y la regresión predictiva para lograr un equilibrio óptimo de Pareto, modela perfiles de riesgo heterogéneos y gestiona eficientemente espacios de acción de alta dimensión mediante un mecanismo de descomposición cartesiana trinomial (TCAD). Además, desarrollamos una variante escalable, PAC-MCoFL-p, que incorpora un generador de conjeturas parametrizado que reduce significativamente la complejidad computacional y limita considerablemente el error. Amplias simulaciones, junto con garantías de convergencia teórica, demuestran su superioridad sobre las soluciones MARL de última generación existentes, mejorando la recompensa total y el índice de hipervolumen (HVI) en aproximadamente un 5,8% y un 4,2%, respectivamente.