Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Allocation adaptative des rangs pour un réglage fin efficace des paramètres fédérés des modèles de langage

Created by
  • Haebom

Auteur

Fei Wu, Jia Hu, Geyong Min, Shiqiang Wang

Contour

Dans cet article, nous proposons un nouveau cadre d'attribution de classes adaptatif, FedARA, pour relever le défi __T17894_____ du réglage fin efficace des paramètres (PEFT) des modèles de langage pré-entraînés (PLM) dans des environnements distribués. FedARA utilise la SVD tronquée pour améliorer les représentations de caractéristiques similaires afin d'atténuer la dégradation des performances due à l'hétérogénéité des données entre les appareils, exploite l'attribution dynamique de classes pour améliorer l'efficacité de la communication et applique l'élagage des modules basé sur les classes pour réduire les coûts de calcul et l'utilisation de la mémoire. Les résultats expérimentaux sur divers ensembles de données et modèles montrent que FedARA surpasse les méthodes existantes de 6,95 % à 8,49 % en moyenne et améliore l'efficacité de la communication d'un facteur 2,40. De plus, des expériences sur divers appareils périphériques démontrent une réduction allant jusqu'à 48,90 % et 46,95 % du temps d'apprentissage et de la consommation d'énergie, respectivement.

Takeaways, Limitations

Takeaways:
FedARA améliore les performances de réglage fin des paramètres du PLM dans les environnements distribués avec des distributions de données hétérogènes.
L'allocation dynamique de classes et l'élagage de modules basé sur les classes améliorent considérablement l'efficacité de la communication et l'efficacité de l'utilisation des ressources.
Réduit considérablement le temps de formation et la consommation d'énergie sur les appareils périphériques.
Limitations:
Les améliorations de performances de FedARA présentées dans cet article peuvent être limitées à des ensembles de données et modèles spécifiques. Des expériences supplémentaires dans des environnements plus diversifiés sont nécessaires.
Les paramètres optimaux pour le SVD tronqué et l'attribution de rang dynamique peuvent varier selon les ensembles de données et les modèles et peuvent nécessiter des méthodes automatisées.
L'efficacité de l'élagage des modules basé sur les classes peut être sensible au rapport d'élagage, et il est important de déterminer le rapport d'élagage optimal.
👍