Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

TPTT : Transformer des Transformers pré-entraînés en Titans

Created by
  • Haebom

Auteur

Fabien Furfaro

Contour

Cet article présente le framework TPTT (Transforming Pretrained Transformers into Titans) afin de réduire les besoins en calcul et en mémoire des modèles de langage à grande échelle (LLM) basés sur les Transformers. TPTT ajoute l'attention linéarisée (LiZA) et la gestion de la mémoire (MaG) aux Transformers pré-entraînés, permettant ainsi un réglage fin efficace des paramètres (LoRA) et une intégration avec des boîtes à outils standard telles que les Hugging Face Transformers. Nous évaluons l'implémentation de TPTT sur des modèles pré-entraînés de différentes tailles, notamment Llama-1B et OlMoE-1B-7B, et démontrons des améliorations d'efficacité et de précision sur des modèles comportant environ un milliard de paramètres, en nous basant sur le benchmark MMLU. Plus précisément, Titans-Llama-1B permet d'obtenir jusqu'à 20 % d'amélioration de la précision lors d'une évaluation ponctuelle. De plus, nous démontrons que les modèles d'attention quadratique peuvent être transformés en modèles d'attention purement linéaires grâce au mécanisme DeltaProduct. Cela démontre que l'apprentissage avec des ressources de calcul limitées est réalisable et pourrait être bénéfique pour l'application des LLM pré-entraînés à des tâches à contexte long.

Takeaways, Limitations

Takeaways:
Nous présentons un cadre TPTT qui améliore l’efficacité et la précision des transformateurs pré-entraînés.
L’attention linéaire réduit les coûts de calcul et offre le potentiel d’un traitement à long contexte.
Facilité d'utilisation accrue grâce à la prise en charge du réglage fin efficace des paramètres (LoRA) et à l'intégration avec les transformateurs Hugging Face.
Efficacité vérifiée sur des modèles de différentes tailles (Llama-1B, OlMoE-1B-7B, etc.).
Vérification de la possibilité de convertir un modèle d'attention quadratique en un modèle d'attention linéaire en utilisant le mécanisme DeltaProduct.
La formation est possible même avec des ressources informatiques limitées.
Limitations:
Les résultats d'évaluation sont présentés principalement pour des modèles comportant un milliard de paramètres. Des recherches plus approfondies sur des modèles plus importants sont nécessaires.
L'évaluation s'est concentrée sur le référentiel MMLU. Une évaluation sur un éventail plus large de référentiels est nécessaire.
Des recherches supplémentaires sont nécessaires sur la généralité et la robustesse du cadre.
👍