Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

FedP$^2$EFT : Apprentissage fédéré pour personnaliser le PEFT pour les LLM multilingues

Created by
  • Haebom

Auteur

Royson Lee, Minyoung Kim, Fady Rezk, Rui Li, Stylianos I. Venieris, Timothy Hospedales

Contour

Cet article se concentre sur l'apprentissage fédéré (AF), qui permet d'entraîner des modèles linguistiques multilingues à grande échelle (MLH) à partir de données multilingues diversifiées et distribuées, notamment pour les langues à faibles ressources. La personnalisation à l'aide de modules de réglage fin paramétriquement efficace (PEFT), tels que LoRA, est couramment utilisée pour améliorer les performances spécifiques aux clients. Cela implique des stratégies de personnalisation (SP), telles que la conception de structures d'adaptateurs PEFT (par exemple, des couches pour ajouter LoRA et leurs rangs) et la sélection d'hyperparamètres pour le réglage fin (par exemple, les taux d'apprentissage). Au lieu de configurer manuellement les SP, cet article propose FedP²EFT, une méthode d'apprentissage-personnalisation fédérée pour les LLM multilingues dans un environnement FL multi-appareils. FedP²EFT apprend conjointement une structure PEFT personnalisée optimale pour chaque client via une sélection bayésienne par rangs clairsemés. Des évaluations sur des benchmarks FL multilingues simulés et réels démontrent que FedP²EFT surpasse significativement les méthodes de réglage fin personnalisées existantes et complète les autres méthodes FL existantes.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle méthode de personnalisation basée sur l'apprentissage fédéré (FedP²EFT) pour améliorer les performances spécifiques au client des LLM multilingues.
Apprentissage efficace de la structure PEFT optimale et atténuation des problèmes de surajustement dans les environnements à faible quantité de données grâce à la sélection bayésienne des rangs clairsemés.
A démontré des performances supérieures par rapport aux méthodes existantes sur des ensembles de données simulés et réels.
Suggérant la possibilité d'une complémentation avec diverses méthodes FL.
Assurer la reproductibilité et l’évolutivité grâce à la divulgation du code source ouvert.
Limitations:
Les performances de la méthode proposée peuvent dépendre de l’ensemble de données spécifique et de l’architecture LLM.
Des recherches supplémentaires sont nécessaires sur les performances de généralisation dans des environnements multilingues réels.
La sélection bayésienne de rangs clairsemés peut être coûteuse en termes de calcul.
Des expériences plus complètes sur des ensembles de données multilingues de tailles et de caractéristiques diverses sont nécessaires.
👍