Cet article explore comment les modèles linguistiques à grande échelle (LLM) peuvent acquérir de nouvelles compétences linguistiques et s'adapter à de nouveaux domaines grâce au pré-entraînement continu (CPT). Plus précisément, nous analysons systématiquement l'impact d'une sélection optimale d'hyperparamètres clés, tels que le ratio de mélange de langues supplémentaires ou de corpus de domaines, sur les performances du modèle. Nous utilisons le CPT pour améliorer la maîtrise du chinois à l'aide des modèles Llama-3 8B et 70B, et étudions la corrélation optimale entre le ratio de mélange de langues supplémentaires (ALMR) et le taux d'apprentissage (LR) dans le modèle 8B afin de définir des paramètres expérimentaux optimaux. Grâce à une sélection rigoureuse et à un réglage précis des hyperparamètres, nous améliorons les performances du modèle non seulement sur des benchmarks liés au chinois, mais aussi dans des domaines spécifiques tels que les mathématiques, le codage et l'intelligence émotionnelle. Nous déployons le modèle 70B final dans un système de chat réel, obtenant des performances satisfaisantes.