본 논문은 희소 대형 언어 모델(LLM) 추론에서 중요한 연산인 SpMV(Sparse Matrix-Vector Multiplication)를 위한 GPU 최적화 형식 및 커널인 MACKO-SpMV를 제안한다. 기존 SpMV 방법이 프루닝된 LLM에서 흔히 관찰되는 저밀도 및 비구조적 희소성(30-90%)에서 성능이 저조한 문제를 해결하고자 한다. MACKO-SpMV는 저장 공간 오버헤드를 줄이면서 GPU 실행 모델과의 호환성을 유지하여 특수 하드웨어 유닛 없이도 비구조적 희소성에 대해 효율적인 SpMV를 가능하게 한다. 실험 결과, MACKO는 희소성 50%에서 밀집 표현보다 1.5배의 메모리 감소 및 1.2-1.5배의 속도 향상을 보였으며, 다른 SpMV 기본 모델 대비 상당한 속도 향상을 달성했다. Llama2-7B 모델에 적용 시, 50% 희소성에서 1.5배 메모리 감소 및 1.5배의 fp16 정밀도 추론 속도 향상을 보였다.