본 논문은 FlashAttention 알고리즘을 사용하는 Transformer 모델의 효율적인 가속화를 위한 새로운 systolic array 기반 아키텍처인 FSA(Flash Systolic Array)를 제안합니다. 기존의 systolic array 기반 가속기는 FlashAttention의 연속되지 않은 작은 행렬 곱셈과 softmax 연산으로 인해 활용률이 낮았습니다. FSA는 SystolicAttention이라는 새로운 스케줄링 알고리즘을 통해 FlashAttention의 모든 연산을 단일 systolic array 내에서 수행하도록 설계되어 외부 벡터 유닛과의 데이터 교환을 없애고 활용률을 높였습니다. 합성 가능한 RTL로 구현된 FSA는 AWS NeuronCore-v2 및 Google TPUv5e 대비 각각 1.77배 및 4.83배 높은 attention FLOPs/s 활용률을 달성했으며, 면적 오버헤드는 약 10%에 불과했습니다.