Cet article vise à améliorer la compréhension du pipeline de pré-entraînement des modèles de langage à grande échelle (LLM), notamment l'entraînement distribué, la gestion de grands ensembles de données sur des centaines de nœuds et la mise à l'échelle du parallélisme des données afin d'exploiter pleinement la capacité de calcul GPU disponible. Alors que les entreprises de recherche en IA de pointe investissent des milliards de dollars dans des infrastructures de supercalcul pour entraîner des modèles de plus en plus volumineux sur des ensembles de données massifs, les informations sur la mise à l'échelle des performances et les considérations d'entraînement pour ces pipelines d'entraînement à grande échelle sont rares dans la littérature publique. Par conséquent, cet article vise à fournir des recommandations pratiques pour optimiser les performances d'entraînement lors de la mise à l'échelle de modèles de langage à grande échelle.