Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens

Created by
  • Haebom

저자

Eugene Kwek, Wenpeng Yin

개요

본 논문은 대규모 언어 모델(LLM)의 메모리, 지연 시간 및 서비스 비용 효율성을 개선하기 위해 제안된 COMPACT라는 새로운 프루닝(pruning) 기법을 소개합니다. COMPACT는 희귀 단어 임베딩/LM 헤드 레이어를 축소하고, 공통 토큰 가중 활성화를 사용하여 FFN 중간 채널을 프루닝하여 LLM과 소형 언어 모델(SLM) 모두에서 성능을 유지하면서 표준 변환기(transformer) 아키텍처를 유지합니다. 실험 결과, Qwen, LLaMA, Gemma 계열 모델(0.5B-70B)에서 매개변수, GPU 메모리, 지연 시간을 대폭 줄이면서 최첨단 성능을 달성했습니다.

시사점, 한계점

시사점:
표준 변환기 아키텍처를 유지하여 배포 용이성을 확보했습니다.
어휘 및 FFN 프루닝 사이의 균형을 통해 규모에 적응 가능합니다.
경쟁력 있는 프루닝 시간과 함께 강력한 메모리 절감 효과를 제공합니다.
다양한 모델 크기(0.5B-70B)에서 우수한 성능을 보입니다.
한계점:
본 논문의 한계점에 대한 직접적인 언급은 요약문에 포함되어 있지 않습니다. (논문 전체를 읽어봐야 함)
👍