Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Acteur-critique de Pareto pour la co-optimisation de la communication et du calcul dans les services d'apprentissage fédérés non coopératifs

Created by
  • Haebom

Auteur

Renxuan Tan, Rongpeng Li, Xiaoxue Yu, Xianfu Chen, Xing Xu, Zhifeng Zhao

Contour

Cet article présente PAC-MCoFL, un cadre d'apprentissage par renforcement multi-agents (MARL) basé sur la théorie des jeux, permettant d'aborder la dynamique non coopérative de l'apprentissage fédéré (FL) dans un écosystème multi-fournisseurs de services (SP). PAC-MCoFL traite les fournisseurs de services comme des agents et optimise conjointement l'affectation des clients, la quantification adaptative et l'allocation des ressources. Il intègre le principe Pareto-Acteur-Critique (PAC) et la régression prédictive pour atteindre l'équilibre Pareto-optimal, modélise des profils de risque hétérogènes et gère efficacement les espaces d'action de grande dimension grâce à un mécanisme de décomposition cartésienne trinomiale (TCAD). De plus, nous développons une variante évolutive, PAC-MCoFL-p, dotée d'un générateur d'hypothèses paramétrées qui réduit considérablement la complexité de calcul et limite étroitement l'erreur. Des simulations approfondies, ainsi que des garanties de convergence théorique, démontrent sa supériorité sur les solutions MARL de pointe existantes, améliorant la récompense totale et l'indice d'hypervolume (HVI) d'environ 5,8 % et 4,2 %, respectivement.

Takeaways, Limitations

Takeaways:
Un nouveau cadre MARL théorique des jeux est présenté pour améliorer l'efficacité de l'apprentissage fédéré dans les environnements de fournisseurs multiservices.
Atteindre l'équilibre optimal de Pareto et modéliser des profils de risque hétérogènes en utilisant le principe PAC et la régression prédictive.
Gestion efficace des espaces d'action de grande dimension grâce aux mécanismes TCAD.
Complexité de calcul réduite et erreur limitée grâce à des variantes évolutives de PAC-MCoFL-p.
Démontrer la supériorité sur les méthodes existantes grâce à une compensation totale et une amélioration du HVI.
Atteindre un équilibre efficace entre les performances individuelles des SP et celles du système dans des environnements de déploiement hétérogènes et à grande échelle de données.
Limitations:
Manque de validation expérimentale dans des environnements réels de fournisseurs multiservices (s'appuyant sur des résultats de simulation)
Des recherches supplémentaires sont nécessaires pour déterminer les paramètres optimaux du générateur de suppositions paramétrées de PAC-MCoFL-p.
Une vérification de la robustesse est requise pour diverses topologies de réseau et délais de communication.
👍