Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

TPTT: Transformando Transformers Preentrenados en Titanes

Created by
  • Haebom

Autor

Fabien Furfaro

Describir

Este artículo presenta el marco de trabajo Transforming Pretrained Transformers into Titans (TPTT) para reducir los requisitos computacionales y de memoria de los modelos de lenguaje a gran escala (LLM) basados ​​en Transformers. TPTT incorpora atención linealizada (LiZA) y control de memoria (MaG) a los Transformers preentrenados, lo que permite un ajuste fino con eficiencia de parámetros (LoRA) y la integración con herramientas estándar como los Hugging Face Transformers. Evaluamos la implementación de TPTT en modelos preentrenados de diversos tamaños, incluyendo Llama-1B y OlMoE-1B-7B, y demostramos mejoras en la eficiencia y la precisión en modelos con aproximadamente mil millones de parámetros, según el parámetro de referencia MMLU. Específicamente, Titans-Llama-1B logra una mejora de la precisión de hasta un 20% en la evaluación de una sola prueba. Además, demostramos que los modelos de atención cuadrática pueden transformarse en modelos de atención puramente lineales mediante el mecanismo DeltaProduct. Esto demuestra que el entrenamiento con recursos computacionales limitados es viable y podría ser beneficioso para aplicar LLM preentrenados a tareas de contexto largo.

Takeaways, Limitations

Takeaways:
Presentamos un marco TPTT que mejora la eficiencia y la precisión de los transformadores pre-entrenados.
La atención lineal reduce los costos computacionales y ofrece el potencial para el procesamiento del contexto a largo plazo.
Mayor facilidad de uso gracias al soporte de ajuste fino de parámetros eficientes (LoRA) y la integración con Hugging Face Transformers.
Eficacia verificada en modelos de varios tamaños (Llama-1B, OlMoE-1B-7B, etc.).
Verificación de la posibilidad de convertir un modelo de atención cuadrático en un modelo de atención lineal utilizando el mecanismo DeltaProduct.
El entrenamiento es posible incluso con recursos computacionales limitados.
Limitations:
Los resultados de la evaluación se presentan principalmente para modelos con mil millones de parámetros. Se requiere más investigación con modelos más amplios.
La evaluación se centró en el parámetro MMLU. Se requiere una evaluación más amplia de parámetros.
Se necesitan más investigaciones sobre la generalidad y solidez del marco.
👍