본 논문은 FlashAttention 알고리즘을 기반으로 동작하는 Transformer 모델의 효율적인 가속화를 위한 새로운 systolic array 기반 아키텍처인 FSA(Flash Systolic Array)를 제안한다. 기존 systolic array 기반 가속기는 FlashAttention의 matrix multiplication과 softmax 연산의 빈번한 교차 실행으로 인해 활용률이 낮고 성능 저하가 발생하는 문제점을 가지고 있다. FSA는 SystolicAttention이라는 새로운 스케줄링 알고리즘을 통해 FlashAttention 연산을 단일 systolic array 내에서 완전히 실행하도록 설계되어, 외부 벡터 유닛 없이도 matrix multiplication과 softmax 연산을 미세 입자 수준에서 겹쳐 처리함으로써 array 활용률을 크게 향상시킨다. 합성 가능한 RTL로 구현된 FSA는 AWS Neuron v2와 Google TPUv5e 대비 각각 1.77배, 4.83배 높은 attention FLOPs/s 활용률을 달성하며, 면적 오버헤드는 12%에 불과함을 실험 결과를 통해 보여준다.