El optimizador Muon es consistentemente más rápido que Adam en el entrenamiento de modelos lingüísticos a gran escala (LLM), pero los mecanismos subyacentes siguen sin estar claros. Este artículo elucida este mecanismo desde una perspectiva de memoria asociativa. Al eliminar el componente transformador optimizado por Muon, revelamos que los parámetros de memoria asociativa del LLM —es decir, los pesos de atención de Valor y Salida (VO) y la red de avance (FFN)— son los principales contribuyentes a la superioridad de Muon. Con base en esta perspectiva de memoria asociativa, este artículo explica la superioridad de Muon en datos del mundo real con características de cola pesada. Esto se debe a dos propiedades clave: (i) Muon genera consistentemente más espectros singulares isótropos que Adam, y (ii) optimiza las clases de cola con mayor eficacia que Adam en datos de cola pesada. Además, validamos teóricamente estos resultados mediante el análisis de un modelo de memoria asociativa de una sola capa bajo datos desequilibrados en cuanto a clases. Este estudio demostró que Muon logra consistentemente un aprendizaje equilibrado entre clases, independientemente de las incrustaciones de características, mientras que Adam puede inducir desequilibrios significativos en los errores de aprendizaje según las características de las incrustaciones. En conclusión, las observaciones empíricas y el análisis teórico revelaron que la principal ventaja de Muon —su regla de actualización, que se alinea con la estructura externa de la memoria asociativa lineal— permite un aprendizaje más equilibrado y efectivo de las clases de cola en distribuciones de cola larga que Adam.