Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SLiM: One-shot Quantization and Sparsity with Low-rank Approximation for LLM Weight Compression

Created by
  • Haebom

저자

Mohammad Mozaffari, Amir Yazdanbakhsh, Maryam Mehri Dehnavi

개요

본 논문은 대규모 언어 모델(LLM)의 메모리 소모 및 느린 추론 속도 문제를 해결하기 위한 새로운 원샷 압축 프레임워크인 SLIM을 제시합니다. 기존의 모델 압축 기법들은 정확도 유지를 위해 계산적으로 비용이 많이 드는 재훈련이 필요하지만, SLIM은 재훈련 없이도 정확도를 유지하면서 모델 크기를 줄입니다. SLIM은 하드웨어 친화적인 양자화, 희소성, 저차원 근사를 통합하여, 확률적 접근 방식을 사용한 양자화(SLIM-Quant), 기존의 원샷 가지치기 방법을 이용한 반구조적 희소성 적용, 그리고 고유한 가역적이고 가산적인 특징을 가진 새로운 중요도 함수를 사용한 저차원 어댑터 계산을 수행합니다. 실험 결과, SLIM은 기존 방법보다 최대 5.66%의 정확도 향상을 보였으며, 최대 4.3배(RTX 3060) 및 3.8배(A100)의 속도 향상과 최대 0.23배의 메모리 감소 효과를 달성했습니다. 또한, 선택적 PEFT 레시피를 통해 추가적인 정확도 향상을 달성했습니다.

시사점, 한계점

시사점:
재훈련 없이 LLM을 효과적으로 압축하는 새로운 원샷 방법 제시.
양자화, 희소성, 저차원 근사를 통합하여 정확도와 성능을 향상.
기존 방법 대비 우수한 정확도, 속도, 메모리 효율성 달성.
선택적 PEFT 레시피를 통해 추가적인 정확도 향상 가능.
한계점:
제시된 방법의 일반화 성능에 대한 추가적인 연구 필요.
다양한 LLM 아키텍처 및 크기에 대한 성능 평가 추가 필요.
PEFT 레시피 적용 시 추가적인 계산 비용 발생 가능성.
👍