Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Muon supera a Adam en el aprendizaje de memoria asociativa de cola

Created by
  • Haebom

Autor

Shuche Wang, Fengzhuo Zhang, Jiaxiang Li, Cunxiao Du, Chao Du, Tianyu Pang, Zhuoran Yang, Mingyi Hong, Vincent YF Tan

Describir

El optimizador Muon es consistentemente más rápido que Adam en el entrenamiento de modelos lingüísticos a gran escala (LLM), pero los mecanismos subyacentes siguen sin estar claros. Este artículo elucida este mecanismo desde una perspectiva de memoria asociativa. Al eliminar el componente transformador optimizado por Muon, revelamos que los parámetros de memoria asociativa del LLM —es decir, los pesos de atención de Valor y Salida (VO) y la red de avance (FFN)— son los principales contribuyentes a la superioridad de Muon. Con base en esta perspectiva de memoria asociativa, este artículo explica la superioridad de Muon en datos del mundo real con características de cola pesada. Esto se debe a dos propiedades clave: (i) Muon genera consistentemente más espectros singulares isótropos que Adam, y (ii) optimiza las clases de cola con mayor eficacia que Adam en datos de cola pesada. Además, validamos teóricamente estos resultados mediante el análisis de un modelo de memoria asociativa de una sola capa bajo datos desequilibrados en cuanto a clases. Este estudio demostró que Muon logra consistentemente un aprendizaje equilibrado entre clases, independientemente de las incrustaciones de características, mientras que Adam puede inducir desequilibrios significativos en los errores de aprendizaje según las características de las incrustaciones. En conclusión, las observaciones empíricas y el análisis teórico revelaron que la principal ventaja de Muon —su regla de actualización, que se alinea con la estructura externa de la memoria asociativa lineal— permite un aprendizaje más equilibrado y efectivo de las clases de cola en distribuciones de cola larga que Adam.

Takeaways, Limitations

El optimizador de muones es más rápido y más efectivo que Adam para el entrenamiento LLM.
Las mejoras de rendimiento de Muon están relacionadas con los parámetros de memoria asociativa de LLM, como los pesos de atención de VO y FFN.
Muon realiza el aprendizaje de clases de cola de manera más efectiva en datos de cola larga.
El muón tiene un espectro singular más isótropo que el de Adán.
El análisis teórico demuestra la capacidad de aprendizaje equilibrado de Muon en datos desequilibrados en cuanto a clases.
(Limitations no está especificado en el documento)
👍