본 논문은 대규모 언어 모델(LLM)의 실제 적용에 있어 크기를 줄이기 위한 네트워크 가지치기 기법에 초점을 맞추고 있습니다. 기존의 가지치기 방법들이 최적이 아닌 성능을 낼 수 있는 휴리스틱 또는 탐색 기반의 희소성 할당 방식을 사용하는 것에 대한 문제점을 지적합니다. 논문에서는 다양한 LLM을 조사하여 세 가지 중요한 발견 (1) LLM의 계층별 가지치기 민감도(LPS)의 비균일성, (2) 가지치기 지표의 선택이 LPS에 미치는 영향, (3) 희소 모델의 성능과 계층별 중복 수준의 균일성 간의 관계)을 제시하고, 이를 바탕으로 LLM의 계층별 희소성은 비균일성, 가지치기 지표 의존성, 가지치기된 모델에서의 균일한 계층별 중복 수준이라는 세 가지 원칙을 따라야 한다고 주장합니다. 이러한 원칙을 준수하는 반복적인 가지치기 알고리즘인 최대 중복 가지치기(MRP)를 제안하며, LLaMA2와 OPT 등 공개적으로 이용 가능한 LLM을 대상으로 한 실험 결과를 통해 기존 방법보다 우수한 성능을 보임을 입증합니다.