본 논문은 FlashAttention 알고리즘을 사용하는 Transformer 모델의 효율적인 가속화를 위해 새로운 systolic array 기반 아키텍처인 FSA(Flash Attention Systolic Array)를 제안합니다. 기존 systolic array 기반 가속기는 FlashAttention의 연속적이지 않은 행렬 곱셈과 softmax 연산으로 인해 활용률이 낮았으나, FSA는 SystolicAttention이라는 새로운 스케줄링 알고리즘을 통해 FlashAttention 알고리즘 전체를 단일 systolic array 내에서 실행하여 이 문제를 해결합니다. SystolicAttention은 세밀한 요소 단위의 겹침을 통해 array 활용률을 높이고, 원래의 부동 소수점 연산 순서를 유지하여 수치적 안정성을 보장합니다. 합성 가능한 RTL로 FSA를 구현하여 AWS NeuronCore-v2 및 Google TPUv5e와 비교 평가한 결과, 약 10%의 면적 오버헤드로 1.77배(NeuronCore-v2 대비) 및 4.83배(TPUv5e 대비) 높은 attention FLOPs/s 활용률을 달성했습니다.