Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Low-Rank GEMM: Efficient Matrix Multiplication via Low-Rank Approximation with FP8 Acceleration

Created by
  • Haebom
Category
Empty

저자

Alfredo Metere

개요

Low-Rank GEMM은 대규모 행렬 곱셈의 계산 복잡성을 줄이기 위해 저랭크 행렬 근사를 활용하는 새로운 접근 방식입니다. FP8 정밀도와 지능적인 커널 선택을 통해 하드웨어 가속 성능을 유지하며, NVIDIA RTX 4090에서 최대 378 TFLOPS의 성능을 달성합니다. 이는 PyTorch FP32 대비 최대 7.8배의 속도 향상과 75%의 메모리 절약을 제공하며, 행렬 특성과 사용 가능한 가속기를 기반으로 최적의 분해 방법(SVD, randomized SVD) 및 정밀도 수준을 자동 선택합니다.

시사점, 한계점

시사점:
대규모 행렬 곱셈의 계산 복잡성을 sub-quadratic으로 줄임.
FP8 정밀도와 하드웨어 가속을 통해 높은 성능을 달성.
메모리 대역폭 최적화를 통해 기존 cuBLAS 구현을 능가하는 성능 제공.
하드웨어 및 행렬 특성에 자동 적응하는 시스템 설계.
한계점:
논문에서 구체적인 한계점에 대한 언급은 없음.
👍