Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

EcoTransformer : Attention sans multiplication

Created by
  • Haebom

Auteur

Xin Gao, Xingming Xu, Shirin Amiraslani, Hong Xu

Contour

Cet article propose EcoTransformer, une nouvelle architecture de Transformer, pour répondre à la complexité de calcul et à la consommation énergétique élevées du mécanisme d'attention par produit scalaire étendu du Transformer existant. EcoTransformer génère des vecteurs de contexte de sortie par convolution avec un noyau laplacien, et la distance entre les requêtes et les clés est mesurée à l'aide de la métrique L1. Contrairement à l'attention par produit scalaire, EcoTransformer élimine la multiplication matricielle, réduisant ainsi considérablement la complexité de calcul. Ses performances sont similaires, voire supérieures, à celles du mécanisme d'attention par produit scalaire étendu existant pour les tâches de TALN, de bioinformatique et de vision, tout en réduisant considérablement la consommation énergétique.

Takeaways, Limitations_

Takeaways:
Nous présentons une nouvelle architecture qui répond efficacement aux problèmes de charge de calcul élevée et de consommation d'énergie des transformateurs existants.
Il démontre des résultats qui maintiennent ou dépassent les performances existantes dans divers domaines tels que la PNL, la bioinformatique et la vision.
Il peut apporter une contribution significative au développement de modèles d’IA économes en énergie.
Limitations:
Une vérification supplémentaire de la généralisabilité des résultats expérimentaux présentés dans cet article est nécessaire.
Les limites de l’utilisation du noyau laplacien et de la métrique L1 ainsi qu’une analyse comparative avec d’autres mesures de distance sont nécessaires.
Des évaluations de performance supplémentaires sont nécessaires pour des modèles de tailles et de complexités variables.
👍