Este artículo propone Flash Systolic Array (FSA), una novedosa arquitectura basada en matrices sistólicas para la aceleración eficiente de modelos Transformer basados en el algoritmo FlashAttention. Los aceleradores existentes basados en matrices sistólicas presentan baja utilización y degradación del rendimiento debido a la frecuente ejecución intercalada de las operaciones de multiplicación de matrices y softmax de FlashAttention. FSA implementa un novedoso algoritmo de programación llamado SystolicAttention para ejecutar completamente las operaciones de FlashAttention dentro de una única matriz sistólica. Esto permite una superposición precisa de las operaciones de multiplicación de matrices y softmax sin necesidad de unidades vectoriales externas, lo que mejora significativamente la utilización de la matriz. Implementado como RTL sintetizable, FSA alcanza una utilización de FLOP/s de atención 1,77 y 4,83 veces superior que AWS Neuron v2 y Google TPUv5e, respectivamente, con una sobrecarga de área de tan solo el 12 %.