Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SystolicAttention : fusion de FlashAttention au sein d'un seul tableau systolique

Created by
  • Haebom

Auteur

Jiawei Lin, Guokai Chen, Yuanlong Li, Thomas Bourgeat

Contour

Cet article propose Flash Systolic Array (FSA), une nouvelle architecture basée sur un tableau systolique pour une accélération efficace des modèles Transformer basés sur l'algorithme FlashAttention. Les accélérateurs existants basés sur un tableau systolique souffrent d'une faible utilisation et d'une dégradation des performances en raison de l'exécution fréquente et entrelacée des opérations de multiplication matricielle et de softmax de FlashAttention. FSA implémente un nouvel algorithme d'ordonnancement appelé SystolicAttention pour exécuter intégralement les opérations FlashAttention au sein d'un seul tableau systolique. Cela permet un chevauchement précis des opérations de multiplication matricielle et de softmax sans recourir à des unités vectorielles externes, améliorant ainsi considérablement l'utilisation du tableau. Implémenté en RTL synthétisable, FSA atteint une utilisation d'attention FLOPs/s 1,77 fois supérieure à celle d'AWS Neuron v2 et de Google TPUv5e, respectivement, avec une surcharge de surface de seulement 12 %.

Takeaways, Limitations_

Takeaways:
En permettant l’exécution complète de l’algorithme FlashAttention dans un seul tableau systolique, nous résolvons les problèmes de dégradation des performances des architectures existantes.
Un traitement parallèle efficace des opérations de multiplication de matrices et de softmax ainsi qu'une utilisation élevée du tableau ont été obtenus grâce à l'algorithme SystolicAttention.
Il présente des performances nettement supérieures à celles d'AWS Neuron v2 et de Google TPUv5e, ce qui suggère la possibilité de concevoir un accélérateur matériel compétitif.
Il démontre une conception économique avec une amélioration des performances élevée et une faible surcharge de surface.
Limitations:
Les améliorations de performances de l'architecture FSA présentées dans cet article sont présentées par comparaison avec des plates-formes matérielles spécifiques (AWS Neuron v2, Google TPUv5e), de sorte que les performances sur d'autres plates-formes nécessitent une vérification supplémentaire.
L’efficacité de FSA dépend fortement des performances de l’algorithme SystolicAttention, et ses performances de généralisation sur des données d’entrée de différentes tailles et formes nécessitent des recherches supplémentaires.
L'analyse de l'efficacité énergétique est insuffisante. Malgré des performances élevées, la consommation d'énergie pourrait avoir augmenté.
👍