Este artículo aborda el escalamiento de capacidad para mejorar el rendimiento de los modelos de lenguaje. La capacidad de un modelo se puede definir en dos dimensiones: el número de parámetros y el número de FLOP por ejemplo, y la interacción entre estos dos factores y su contribución a la capacidad general aún no se comprende completamente. Este estudio explora cómo aumentar el número de parámetros sin aumentar proporcionalmente el número de FLOP por ejemplo utilizando el modelo de mezcla dispersa de expertos (MoE). En particular, investigamos el efecto de variar el nivel de escasez, que es la proporción de parámetros inactivos, en el preentrenamiento y la evaluación del entrenamiento a pequeña escala. Encontramos que existe un nivel óptimo de escasez que mejora tanto la eficiencia del entrenamiento como el rendimiento del modelo, sujeto a restricciones como el tamaño del parámetro y el cómputo total del entrenamiento. Estos resultados mejoran nuestra comprensión del impacto de la escasez en la ley de escalamiento de MoE y brindan información para un diseño de arquitectura más eficiente.