본 논문은 다수의 서비스 제공자(SP) 생태계에서 연합 학습(FL)의 비협조적 역학을 해결하기 위해 게임 이론적 다중 에이전트 강화 학습(MARL) 프레임워크인 PAC-MCoFL을 제시합니다. PAC-MCoFL은 서비스 제공자들을 에이전트로 간주하여 클라이언트 할당, 적응적 양자화, 자원 할당을 공동으로 최적화합니다. Pareto Actor-Critic(PAC) 원칙과 예측 회귀를 통합하여 파레토 최적 평형을 달성하고 이종 위험 프로파일을 모델링하며, 삼항 카테시안 분해(TCAD) 메커니즘을 통해 고차원 행동 공간을 효율적으로 관리합니다. 또한 계산 복잡성을 크게 줄이는 매개변수화된 추측 생성기를 특징으로 하는 확장 가능한 변형인 PAC-MCoFL-p를 개발하여 오차를 경계 있게 제한합니다. 이론적 수렴 보장과 함께 광범위한 시뮬레이션을 통해 기존 최신 MARL 솔루션 대비 총 보상과 초부피 지표(HVI)를 각각 약 5.8%와 4.2% 향상시키는 우수성을 검증합니다.