SageAttention2의 효율성을 개선한 SageAttention2++를 제안합니다. SageAttention2는 양자화를 이용하여 어텐션 연산의 시간 복잡도를 줄였으나, SageAttention2++는 FP8 Matmul을 FP16 누적 연산으로 대체하여 더욱 빠른 속도를 달성합니다. 실험 결과, SageAttention2++는 FlashAttention보다 3.9배 빠르면서 SageAttention2와 동일한 정확도를 유지하며, 다양한 모델(언어, 이미지, 비디오 생성)에 적용 가능함을 보였습니다. 코드는 https://github.com/thu-ml/SageAttention 에서 확인할 수 있습니다.