Este artículo presenta los resultados de un estudio sistemático de las afirmaciones de aceleración de algoritmos de optimización que pueden reemplazar a AdamW para el preentrenamiento de modelos lingüísticos a gran escala. Destacamos los problemas que estudios previos han sesgado en sus comparaciones debido a un ajuste injusto de hiperparámetros y configuraciones de evaluación limitadas, y comparamos diez algoritmos de optimización con cuatro tamaños de modelo y ratios datos-modelo diferentes. Nuestros resultados demuestran que un ajuste riguroso de hiperparámetros y evaluaciones al final del entrenamiento para diversos tamaños de modelo y ratios datos-modelo son esenciales para realizar comparaciones justas. Además, observamos que las afirmaciones de aceleración en estudios previos son, en realidad, menores y tienden a disminuir al aumentar el tamaño del modelo. Específicamente, observamos que los algoritmos de optimización más rápidos, como Muon y Soap, utilizan preprocesadores matriciales, pero su aceleración disminuye inversamente con el tamaño del modelo.