Dans cet article, nous proposons DiLoCoX, un framework d'apprentissage en cluster distribué à faible communication pour l'apprentissage distribué de grands modèles de langage (LLM) dépassant 100 milliards de paramètres. DiLoCoX combine un traitement parallèle en pipeline, des politiques d'optimisation double, une redondance retardée en une étape de la communication et de l'apprentissage local, ainsi qu'une compression adaptative du gradient pour améliorer significativement la vitesse et l'échelle des paramètres du pré-apprentissage du modèle. Nous démontrons expérimentalement qu'il effectue avec succès le pré-apprentissage du modèle de base de 107 milliards de paramètres sur un réseau de 1 Gbit/s, atteignant une vitesse 357 fois supérieure à celle d'AllReduce classique tout en minimisant la dégradation de la convergence du modèle. Il s'agit du premier framework d'apprentissage distribué appliqué avec succès à des modèles de plus de 100 milliards de paramètres.