본 논문은 대규모 언어 모델(LLM)의 메모리, 지연 시간 및 서비스 비용 효율성을 개선하기 위해 제안된 COMPACT라는 새로운 프루닝(pruning) 기법을 소개합니다. COMPACT는 희귀 단어 임베딩/LM 헤드 레이어를 축소하고, 공통 토큰 가중 활성화를 사용하여 FFN 중간 채널을 프루닝하여 LLM과 소형 언어 모델(SLM) 모두에서 성능을 유지하면서 표준 변환기(transformer) 아키텍처를 유지합니다. 실험 결과, Qwen, LLaMA, Gemma 계열 모델(0.5B-70B)에서 매개변수, GPU 메모리, 지연 시간을 대폭 줄이면서 최첨단 성능을 달성했습니다.