본 논문은 다국어 대규모 언어 모델(LLM)의 성능이 모델 크기에 크게 의존하며, 효율성을 위해 모델 크기를 줄이면서 사전 훈련의 장점을 유지하는 일괄 자르기(one-shot pruning) 방법에 대한 관심이 증가하고 있음을 지적합니다. 하지만 자르기는 성능 저하를 초래할 수 있으므로, 다국어 지원과 희소화(sparsification) 사이의 절충점을 이해하는 것이 중요합니다. 본 연구는 다양한 희소성 제약 조건 하에서 다국어 성능을 연구하고, 중간 정도의 비율만으로도 성능이 상당히 저하됨을 보여줍니다. 이러한 문제를 해결하기 위해, 본 논문은 언어 인식 활성화 통계를 자르기 기준에 통합하고, 언어 간 중요도에 따라 계층별 희소성을 동적으로 조정하는 M-Wanda라는 자르기 방법을 제안합니다. M-Wanda는 최소한의 추가 비용으로 성능을 지속적으로 향상시키는 것으로 나타났습니다. 본 연구는 다국어 성능을 유지하기 위해 자르기를 명시적으로 최적화한 최초의 연구이며, 향후 다국어 자르기 연구 발전에 기여할 것으로 기대합니다.