En este artículo, proponemos una novedosa arquitectura basada en matrices sistólicas, Flash Systolic Array (FSA), para la aceleración eficiente de modelos Transformer mediante el algoritmo FlashAttention. Los aceleradores existentes basados en matrices sistólicas presentan una baja utilización debido a las multiplicaciones no consecutivas de matrices pequeñas y las operaciones softmax de FlashAttention. FSA está diseñado para realizar todas las operaciones de FlashAttention dentro de una única matriz sistólica mediante un novedoso algoritmo de programación llamado SystolicAttention, eliminando así el intercambio de datos con unidades vectoriales externas y mejorando la utilización. Implementado como RTL sintetizable, FSA alcanza una utilización de FLOP/s de atención 1,77 y 4,83 veces superior que AWS NeuronCore-v2 y Google TPUv5e, respectivamente, con una sobrecarga de área de tan solo un 10 %.