Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Los modelos de espacio de estados Mamba son aprendices estables de Lyapunov

Created by
  • Haebom

Autor

John T. Halloran, Manbir Gulati, Paul F. Roysdon

Describir

Si bien el Modelo de Espacio de Estados (SSM) Mamba supera a los Modelos de Lenguaje a Gran Escala (LLM) Transformer de última generación (SOTA) en numerosas tareas y se aplica ampliamente, un desafío clave para el entrenamiento estable de modelos profundos basados ​​en recurrencia (p. ej., SSM) es su sensibilidad a la dinámica recurrente. En este artículo, investigamos empíricamente la sensibilidad de Mamba a la dinámica recurrente bajo métodos comunes de ajuste fino, como el ajuste fino de precisión mixta (MPFT) y el ajuste fino de parámetros eficientes (PEFT). Demostramos que el LLM Mamba es altamente robusto a las variaciones en la combinación de MPFT y PEFT, mientras que el LLM Transformer puede desviarse significativamente del modelo de precisión completa bajo diferentes combinaciones de MPFT y PEFT. Atribuimos la robustez del LLM Mamba a la dinámica recurrente y demostramos que su estabilidad está garantizada mediante la teoría de sistemas dinámicos (específicamente, la estabilidad de Lyapunov). Por último, complementamos el trabajo reciente explorando las capacidades de aprendizaje en contexto (ICL) del Mamba LLM para tareas de procesamiento del lenguaje natural utilizando MPFT y PEFT.

Takeaways, Limitations

Takeaways: La dinámica circular del Mamba LLM proporciona robustez frente a la MPFT y la PEFT, como lo demuestra la teoría de sistemas dinámicos. A diferencia del Transformer LLM, el Mamba LLM exhibe una excelente estabilidad frente a los métodos de ajuste fino. Esto proporciona nuevos conocimientos sobre las capacidades de aprendizaje dependientes del contexto del Mamba LLM.
Limitations: Este estudio se centró en un tipo específico de LLM (Mamba SSM), lo que limita su generalización a otros tipos de LLM. Se requiere más investigación sobre una gama más amplia de métodos y tareas de ajuste fino. Se requieren análisis adicionales para determinar la precisión con la que la prueba de estabilidad de Lyapunov se ajusta al rendimiento real de Mamba LLM.
👍