Este artículo aborda el problema de los modelos de lenguaje a gran escala (LLM) que aprenden representaciones de palabras con una propiedad indeseable denominada anisotropía. Los investigadores argumentan que el segundo momento del optimizador Adam es la causa de las incrustaciones anisotrópicas y proponen un optimizador modificado, Coupled Adam, para mitigar este problema. Los resultados experimentales muestran que Coupled Adam mejora significativamente la calidad de las incrustaciones y el rendimiento de las tareas tanto superordinadas como subordinadas en conjuntos de datos suficientemente grandes.