Bài báo này đề xuất Flash Systolic Array (FSA), một kiến trúc mảng tâm thu mới lạ để tăng tốc hiệu quả các mô hình Transformer dựa trên thuật toán FlashAttention. Các bộ tăng tốc dựa trên mảng tâm thu hiện tại gặp phải tình trạng sử dụng thấp và suy giảm hiệu suất do việc thực hiện xen kẽ thường xuyên các phép toán nhân ma trận và softmax của FlashAttention. FSA triển khai một thuật toán lập lịch mới lạ có tên là SystolicAttention để thực hiện đầy đủ các phép toán FlashAttention trong một mảng tâm thu duy nhất. Điều này cho phép chồng chéo chi tiết các phép toán nhân ma trận và softmax mà không cần các đơn vị vectơ bên ngoài, cải thiện đáng kể việc sử dụng mảng. Được triển khai dưới dạng RTL có thể tổng hợp, FSA đạt được mức sử dụng FLOPs/giây chú ý cao hơn lần lượt là 1,77 lần và 4,83 lần so với AWS Neuron v2 và Google TPUv5e, với chi phí sử dụng diện tích chỉ là 12%.