Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

DiLoCoX : un cadre de formation à grande échelle et à faible communication pour les clusters décentralisés

Created by
  • Haebom

Auteur

Ji Qi, WenPeng Zhu, Li Li, Ming Wu, YingJun Wu, Wu He, Xun Gao, Jason Zeng, Michael Heinrich

Contour

Dans cet article, nous proposons DiLoCoX, un framework d'apprentissage en cluster distribué à faible communication pour l'apprentissage distribué de grands modèles de langage (LLM) dépassant 100 milliards de paramètres. DiLoCoX combine un traitement parallèle en pipeline, des politiques d'optimisation double, une redondance retardée en une étape de la communication et de l'apprentissage local, ainsi qu'une compression adaptative du gradient pour améliorer significativement la vitesse et l'échelle des paramètres du pré-apprentissage du modèle. Nous démontrons expérimentalement qu'il effectue avec succès le pré-apprentissage du modèle de base de 107 milliards de paramètres sur un réseau de 1 Gbit/s, atteignant une vitesse 357 fois supérieure à celle d'AllReduce classique tout en minimisant la dégradation de la convergence du modèle. Il s'agit du premier framework d'apprentissage distribué appliqué avec succès à des modèles de plus de 100 milliards de paramètres.

Takeaways, Limitations

Takeaways:
Cela suggère la possibilité de former efficacement de grands modèles de langage avec plus de 100 milliards de paramètres, même dans des environnements réseau lents.
Réduit la dépendance aux clusters centralisés traditionnels centrés sur l'interconnexion à haut débit et étend l'utilisation des clusters distribués.
Nous présentons de nouvelles techniques (traitement parallèle par pipeline, politique d'optimisation double, redondance de délai en une étape et compression de gradient adaptative) pour améliorer les performances des cadres d'apprentissage distribués à faible débit de communication et vérifier expérimentalement leur efficacité.
Il ouvre de nouvelles possibilités d’apprentissage distribué de modèles avec plus de 100 milliards de paramètres.
Limitations:
Des recherches supplémentaires sont nécessaires pour étudier la généralité de la méthodologie présentée et son évolutivité vers différents environnements de réseau et tailles de modèles.
Les résultats expérimentaux dans un environnement réseau 1 Gbit/s peuvent ne pas garantir les mêmes performances dans d’autres environnements réseau.
Il peut y avoir un manque d'informations détaillées sur la mise en œuvre et l'optimisation de DiLoCoX (éventuellement des parties qui ne sont pas couvertes en détail dans le document).
👍