본 논문은 대규모 언어 모델(LLM)의 효율적인 배포를 위해 필수적인 모델 압축 기법들을 연구하며, 특히 지식 증류, 구조적 가지치기, 낮은 비트 양자화를 Qwen2.5 3B 모델에 적용하여 개별 효과와 상호 작용, 최적 시퀀스를 분석합니다. 다양한 압축 파이프라인을 평가하고, 특히 가지치기, 지식 증류, 양자화(P-KD-Q) 순서가 3.68배 압축률을 달성하면서 강력한 지침 준수 및 언어 이해 능력을 유지하는 최적의 균형을 제공함을 발견했습니다. 양자화를 먼저 적용하는 파이프라인은 정보 손실로 인해 심각한 성능 저하를 겪는다는 점도 밝혀졌습니다.