Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Preentrenamiento con memorias jerárquicas: separando el conocimiento común y de cola larga

Created by
  • Haebom

Autor

Hadi Pouransari, David Grangier, C. Thomas, Michael Kirchhof, Oncel Tuzel

Describir

Este artículo propone una arquitectura de aumento de memoria y una estrategia de preentrenamiento para abordar el problema de la dependencia del rendimiento de los modelos de lenguaje modernos con respecto al escalado de parámetros. Esta arquitectura permite que los modelos de lenguaje pequeños accedan a un amplio banco de memoria paramétrica jerárquica que codifica el conocimiento del mundo. Durante el preentrenamiento y la inferencia, se recuperan pequeños bloques de memoria y se añaden al modelo en función del contexto. Esto permite almacenar conocimiento del mundo de cola larga en los parámetros de memoria, mientras el modelo de lenguaje pequeño aprende a gestionar el conocimiento general y las capacidades de inferencia general. Experimentalmente, demostramos que añadir 18 MB de memoria de parámetros a un modelo de 160 MB de parámetros, utilizando un banco de memoria de 4,6 B, logra un rendimiento comparable al de un modelo típico con más del doble de parámetros. También investigamos el tipo y el tamaño óptimos de memoria paramétrica para un modelo Transformer, escalándolo hasta 21 B de parámetros. Demostramos que la memoria de avance jerárquica propuesta presenta un rendimiento robusto en una arquitectura Transformer, ya sea preentrenada o añadida postentrenada.

Takeaways, Limitations

Takeaways:
La combinación de pequeños modelos de lenguaje con bancos de memoria externos nos permite reducir la cantidad de parámetros del modelo manteniendo el rendimiento.
Sugiere la posibilidad de utilizar eficientemente modelos de lenguaje en entornos con memoria y recursos computacionales limitados, como dispositivos de borde.
Se puede aplicar a varias arquitecturas de transformadores utilizando memoria de avance jerárquica.
Limitations:
Se necesita más investigación sobre la construcción y gestión de bancos de memoria.
Se necesita investigación sobre los cambios de rendimiento y la optimización según el método de acceso a la memoria.
Se necesita una mayor verificación de la eficacia de la arquitectura propuesta en aplicaciones del mundo real.
👍