Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MACKO: Sparse Matrix-Vector Multiplication for Low Sparsity

Created by
  • Haebom
Category
Empty

저자

Vladimir Macko, Vladimir Bo\v{z}a

개요

본 논문은 희소 대형 언어 모델(LLM) 추론에서 중요한 연산인 SpMV(Sparse Matrix-Vector Multiplication)를 위한 GPU 최적화 형식 및 커널인 MACKO-SpMV를 제안한다. 기존 SpMV 방법이 프루닝된 LLM에서 흔히 관찰되는 저밀도 및 비구조적 희소성(30-90%)에서 성능이 저조한 문제를 해결하고자 한다. MACKO-SpMV는 저장 공간 오버헤드를 줄이면서 GPU 실행 모델과의 호환성을 유지하여 특수 하드웨어 유닛 없이도 비구조적 희소성에 대해 효율적인 SpMV를 가능하게 한다. 실험 결과, MACKO는 희소성 50%에서 밀집 표현보다 1.5배의 메모리 감소 및 1.2-1.5배의 속도 향상을 보였으며, 다른 SpMV 기본 모델 대비 상당한 속도 향상을 달성했다. Llama2-7B 모델에 적용 시, 50% 희소성에서 1.5배 메모리 감소 및 1.5배의 fp16 정밀도 추론 속도 향상을 보였다.

시사점, 한계점

시사점:
비구조적 희소성을 활용한 LLM 추론의 메모리 감소 및 속도 향상 가능성 제시.
특수 하드웨어 없이 GPU에서 효율적인 SpMV 구현.
실제 LLM 워크로드에서 비구조적 프루닝의 효과를 입증.
한계점:
논문에 구체적인 한계점에 대한 언급 없음.
👍