[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SystolicAttention : fusion de FlashAttention au sein d'un seul tableau systolique

Created by
  • Haebom

Auteur

Jiawei Lin, Guokai Chen, Yuanlong Li, Thomas Bourgeat

Contour

Dans cet article, nous proposons une nouvelle architecture basée sur un tableau systolique, le Flash Attention Systolic Array (FSA), pour une accélération efficace des modèles Transformer à l'aide de l'algorithme FlashAttention. Les accélérateurs existants basés sur un tableau systolique souffrent d'une faible utilisation en raison de la multiplication matricielle non consécutive et de l'opération softmax de FlashAttention. FSA résout ce problème en exécutant l'intégralité de l'algorithme FlashAttention au sein d'un seul tableau systolique grâce à un nouvel algorithme d'ordonnancement appelé SystolicAttention. SystolicAttention améliore l'utilisation du tableau grâce à un chevauchement élément par élément précis et garantit la stabilité numérique en conservant l'ordre d'origine des opérations en virgule flottante. Nous implémentons FSA comme un RTL synthétisable et le comparons à AWS NeuronCore-v2 et Google TPUv5e. Les résultats montrent qu'il atteint une utilisation d'attention FLOPs/s 1,77 fois supérieure (par rapport à NeuronCore-v2) et 4,83 fois supérieure (par rapport à TPUv5e) avec une surcharge d'environ 10 %.

Takeaways, Limitations

Takeaways:
Surmonte les limitations de performances des accélérateurs basés sur un réseau systolique existant en permettant à l'ensemble de l'algorithme FlashAttention de s'exécuter dans un seul réseau systolique.
Obtenez une utilisation FLOP/s d'attention significativement plus élevée par rapport aux accélérateurs commerciaux existants (1,77x par rapport à AWS NeuronCore-v2, 4,83x par rapport à Google TPUv5e).
Obtenez des performances élevées avec une faible surcharge de surface (environ 10 %).
L'algorithme SystolicAttention a une grande applicabilité à d'autres algorithmes similaires.
Limitations:
Actuellement, l’architecture est spécialisée pour l’algorithme FlashAttention, et il peut être difficile de l’appliquer à d’autres mécanismes d’attention.
Manque d'évaluation des performances dans les applications réelles (le document ne présente qu'une évaluation synthétisable basée sur RTL)
Manque d’analyse sur l’efficacité énergétique.
Des recherches supplémentaires sont nécessaires sur la généralisation et l’évolutivité de l’algorithme SystolicAttention.
👍