Trong bài báo này, chúng tôi đề xuất một kiến trúc mới dựa trên mảng tâm thu, Mảng tâm thu Flash Attention (FSA), để tăng tốc hiệu quả các mô hình Transformer bằng thuật toán FlashAttention. Các bộ tăng tốc dựa trên mảng tâm thu hiện có bị sử dụng thấp do phép nhân ma trận không liên tiếp và hoạt động softmax của FlashAttention. FSA giải quyết vấn đề này bằng cách thực thi toàn bộ thuật toán FlashAttention trong một mảng tâm thu duy nhất thông qua một thuật toán lập lịch mới có tên là SystolicAttention. SystolicAttention cải thiện việc sử dụng mảng thông qua chồng chéo từng phần tử chi tiết và đảm bảo tính ổn định về số bằng cách duy trì thứ tự hoạt động dấu phẩy động ban đầu. Chúng tôi triển khai FSA dưới dạng RTL có thể tổng hợp và so sánh nó với AWS NeuronCore-v2 và Google TPUv5e. Kết quả cho thấy nó đạt được mức sử dụng FLOPs/giây chú ý cao hơn 1,77 lần (so với NeuronCore-v2) và 4,83 lần (so với TPUv5e) với chi phí sử dụng diện tích khoảng 10%.