Low-Rank GEMM은 대규모 행렬 곱셈의 계산 복잡성을 줄이기 위해 저랭크 행렬 근사를 활용하는 새로운 접근 방식입니다. FP8 정밀도와 지능적인 커널 선택을 통해 하드웨어 가속 성능을 유지하며, NVIDIA RTX 4090에서 최대 378 TFLOPS의 성능을 달성합니다. 이는 PyTorch FP32 대비 최대 7.8배의 속도 향상과 75%의 메모리 절약을 제공하며, 행렬 특성과 사용 가능한 가속기를 기반으로 최적의 분해 방법(SVD, randomized SVD) 및 정밀도 수준을 자동 선택합니다.