Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SystolicAttention: Fusing FlashAttention within a Single Systolic Array

Created by
  • Haebom

저자

Jiawei Lin, Guokai Chen, Yuanlong Li, Thomas Bourgeat

개요

본 논문은 FlashAttention 알고리즘을 기반으로 동작하는 Transformer 모델의 효율적인 가속화를 위한 새로운 systolic array 기반 아키텍처인 FSA(Flash Systolic Array)를 제안한다. 기존 systolic array 기반 가속기는 FlashAttention의 matrix multiplication과 softmax 연산의 빈번한 교차 실행으로 인해 활용률이 낮고 성능 저하가 발생하는 문제점을 가지고 있다. FSA는 SystolicAttention이라는 새로운 스케줄링 알고리즘을 통해 FlashAttention 연산을 단일 systolic array 내에서 완전히 실행하도록 설계되어, 외부 벡터 유닛 없이도 matrix multiplication과 softmax 연산을 미세 입자 수준에서 겹쳐 처리함으로써 array 활용률을 크게 향상시킨다. 합성 가능한 RTL로 구현된 FSA는 AWS Neuron v2와 Google TPUv5e 대비 각각 1.77배, 4.83배 높은 attention FLOPs/s 활용률을 달성하며, 면적 오버헤드는 12%에 불과함을 실험 결과를 통해 보여준다.

시사점, 한계점

시사점:
단일 systolic array 내에서 FlashAttention 알고리즘의 완전한 실행을 가능하게 함으로써, 기존 아키텍처의 성능 저하 문제를 해결하였다.
SystolicAttention 알고리즘을 통해 matrix multiplication과 softmax 연산의 효율적인 병렬 처리 및 높은 array 활용률을 달성하였다.
AWS Neuron v2 및 Google TPUv5e 대비 월등히 높은 성능을 보이며, 경쟁력 있는 하드웨어 가속기 설계의 가능성을 제시하였다.
낮은 면적 오버헤드로 높은 성능 향상을 이루어 경제적인 설계임을 보여준다.
한계점:
본 논문에서 제시된 FSA 아키텍처의 성능 향상은 특정 하드웨어 플랫폼(AWS Neuron v2, Google TPUv5e)과의 비교를 통해 제시되었으므로, 다른 플랫폼에서의 성능은 추가적인 검증이 필요하다.
FSA의 효율성은 SystolicAttention 알고리즘의 성능에 크게 의존하며, 다양한 크기 및 형태의 입력 데이터에 대한 일반화 성능은 추가적인 연구가 필요하다.
에너지 효율성에 대한 분석이 부족하다. 높은 성능을 달성했지만, 전력 소모량이 증가했을 가능성이 있다.
👍