Cet article propose Flash Systolic Array (FSA), une nouvelle architecture basée sur un tableau systolique pour une accélération efficace des modèles Transformer basés sur l'algorithme FlashAttention. Les accélérateurs existants basés sur un tableau systolique souffrent d'une faible utilisation et d'une dégradation des performances en raison de l'exécution fréquente et entrelacée des opérations de multiplication matricielle et de softmax de FlashAttention. FSA implémente un nouvel algorithme d'ordonnancement appelé SystolicAttention pour exécuter intégralement les opérations FlashAttention au sein d'un seul tableau systolique. Cela permet un chevauchement précis des opérations de multiplication matricielle et de softmax sans recourir à des unités vectorielles externes, améliorant ainsi considérablement l'utilisation du tableau. Implémenté en RTL synthétisable, FSA atteint une utilisation d'attention FLOPs/s 1,77 fois supérieure à celle d'AWS Neuron v2 et de Google TPUv5e, respectivement, avec une surcharge de surface de seulement 12 %.