본 논문은 대규모 언어 모델(LLM)의 효율성을 개선하기 위해 COMPACT라는 새로운 프루닝 기법을 제안한다. COMPACT는 (i) 희귀 단어를 제거하여 임베딩/LM 헤드 레이어를 축소하고, (ii) 공통 토큰 가중 활성화를 사용하여 FFN (Feed-Forward Network) 중간 채널을 프루닝한다. 이를 통해 표준 트랜스포머 구조를 유지하면서, 메모리 사용량, 지연 시간, 그리고 비용을 줄이는 것을 목표로 한다. Qwen, LLaMA, Gemma 모델 (0.5B-70B) 에 대한 실험 결과, COMPACT는 파라미터 수, GPU 메모리, 지연 시간을 크게 감소시키면서도 최첨단 성능을 유지했다.