Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Rapide et simplexe : attention 2-simpliciale dans Triton

Created by
  • Haebom

Auteur

Aurko Roy, Timothy Chou, Sai Surya Duvvuri, Sijia Chen, Jiecao Yu, Xiaodong Wang, Manzil Zaheer, Rohan Anil

Contour

Cet article présente une nouvelle architecture visant à améliorer l'efficacité des jetons en prenant en compte le fait que les modèles de langage à grande échelle (LLM) sont soumis à des contraintes de données plutôt qu'à des contraintes de calcul. Nous proposons un transformateur 2-simplicial, qui généralise l'attention conventionnelle par produit scalaire à une fonction trilinéaire, et démontrons expérimentalement qu'il permet d'obtenir une efficacité de jetons supérieure à celle du transformateur standard grâce à une implémentation efficace utilisant le noyau Triton. En particulier, nous démontrons que des modèles de taille similaire surpassent les modèles basés sur l'attention par produit scalaire avec un budget de jetons fixe pour les tâches de mathématiques, de codage, de raisonnement et de logique, et nous analysons quantitativement la variation exponentielle de la loi d'échelle pour les tâches de connaissance et de raisonnement.

Takeaways, Limitations

Takeaways:
Nous soulignons la nécessité d'architectures LLM efficaces en termes de jetons et proposons que le transformateur composite 2-simple soit une solution prometteuse pour cela.
Nous soulignons les limites des lois d’échelle existantes et montrons la possibilité de proposer de nouvelles lois d’échelle dans des environnements contraints par les données.
Nous démontrons expérimentalement les performances supérieures de deux transformateurs complexes simples dans des tâches spécifiques, notamment les mathématiques, le codage, le raisonnement et la logique.
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer si les améliorations de performances de l’architecture proposée peuvent être généralisées à tous les types de tâches.
Les implémentations qui s'appuient sur le noyau Triton peuvent avoir une généralité limitée car elles dépendent d'environnements matériels spécifiques.
Des expériences supplémentaires sont nécessaires pour vérifier dans quelle mesure les changements de loi d’échelle présentés dans l’article sont généraux et s’ils s’appliquent à d’autres architectures.
👍