Este artículo busca mejorar la comprensión del proceso de preentrenamiento para modelos lingüísticos a gran escala (LLM), en particular el entrenamiento distribuido, la gestión de grandes conjuntos de datos en cientos de nodos y el escalado del paralelismo de datos para aprovechar al máximo la capacidad de cómputo de la GPU. Si bien las empresas de investigación de IA de vanguardia invierten miles de millones de dólares en infraestructura de supercomputación para entrenar modelos cada vez más grandes en conjuntos de datos masivos, la información sobre el escalado del rendimiento y las consideraciones de entrenamiento para estos procesos de entrenamiento a gran escala es escasa en la literatura pública. Por lo tanto, este artículo busca ofrecer recomendaciones prácticas para optimizar el rendimiento del entrenamiento al escalar modelos lingüísticos a gran escala.