Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens

Created by
  • Haebom

저자

Eugene Kwek, Wenpeng Yin

COMPACT: Joint Pruning for Efficient Language Models

개요

본 논문은 대규모 언어 모델(LLM)의 효율성을 개선하기 위해 COMPACT라는 새로운 프루닝 기법을 제안한다. COMPACT는 (i) 희귀 단어를 제거하여 임베딩/LM 헤드 레이어를 축소하고, (ii) 공통 토큰 가중 활성화를 사용하여 FFN (Feed-Forward Network) 중간 채널을 프루닝한다. 이를 통해 표준 트랜스포머 구조를 유지하면서, 메모리 사용량, 지연 시간, 그리고 비용을 줄이는 것을 목표로 한다. Qwen, LLaMA, Gemma 모델 (0.5B-70B) 에 대한 실험 결과, COMPACT는 파라미터 수, GPU 메모리, 지연 시간을 크게 감소시키면서도 최첨단 성능을 유지했다.

시사점, 한계점

시사점:
표준 트랜스포머 구조를 유지하여 배포 용이성 확보.
어휘 및 FFN 프루닝의 균형 조절을 통해 규모에 유연하게 적응.
경쟁력 있는 프루닝 시간과 메모리 절감 및 처리량 증가 달성.
다양한 모델 (0.5B-70B) 에서 SOTA (State-of-the-Art) 성능 달성.
한계점:
논문에서 구체적인 한계점은 명시되지 않음. (하지만, 모든 프루닝 기법이 그렇듯, 성능 저하 없이 얼마나 공격적으로 프루닝을 할 수 있는지는 항상 고려해야 할 사항임)
👍