SageAttention2는 선형 계층에 대한 양자화가 널리 사용됨에도 불구하고 어텐션 계산 가속에 대한 적용이 제한적이라는 점을 해결하기 위해 제안된 알고리즘입니다. SageAttention보다 효율성을 높이고 정확도를 유지하기 위해 하드웨어 친화적인 스레드 수준의 입자성을 가진 4비트 행렬 곱셈(Matmul)과 추가적인 정확도 향상 기술을 활용합니다. 주요 기술로는 (Q, K) 행렬을 INT4로, (P̃, V) 행렬을 FP8로 양자화하는 것, INT4 QKᵀ의 정확도를 높이기 위한 Q의 스무딩 기법, 그리고 FP8 P̃V의 정확도를 높이기 위한 2단계 누적 전략이 있습니다. RTX 4090에서 FlashAttention2와 xformers보다 각각 약 3배, 4.5배 빠른 OPS를 달성하며, Hopper GPU에서는 FlashAttention3(fp8)과 비슷한 속도를 보이면서 훨씬 높은 정확도를 제공합니다. 다양한 모델(언어, 이미지, 비디오 생성)에서 종단 간 지표 손실이 무시할 만하다는 것을 실험을 통해 확인하였습니다. 코드는 https://github.com/thu-ml/SageAttention 에서 이용 가능합니다.