Cet article souligne qu'avec l'augmentation exponentielle du coût d'apprentissage des modèles de langage à grande échelle (LLM), de nouvelles techniques sont développées pour améliorer l'efficacité de l'apprentissage. Cependant, prédire la taille optimale du modèle et allouer les ressources reste un défi. La plupart des lois d'échelle existantes sont spécifiques aux architectures denses ou clairsemées. Par conséquent, dans cet article, nous proposons une loi d'échelle généralisée applicable aux LLM denses et clairsemés et démontrons son efficacité par une évaluation comparative avec les lois d'échelle existantes.