SageAttention2의 속도 향상을 위한 새로운 방법인 SageAttention2++를 제안합니다. SageAttention2는 양자화를 이용하여 어텐션 연산의 속도를 높였지만, SageAttention2++는 FP8 Matmul을 FP16으로 누적하는 더 빠른 명령어를 사용하여 추가적인 속도 향상을 달성합니다. 실험 결과, SageAttention2++는 FlashAttention보다 3.9배 빠르면서 SageAttention2와 동일한 정확도를 유지합니다. 이는 자연어, 이미지, 비디오 생성 모델 등 다양한 모델에 적용 가능하며, 종단 간 성능 저하 없이 효과적으로 속도를 향상시킴을 의미합니다. 코드는 https://github.com/thu-ml/SageAttention 에서 공개될 예정입니다.