본 논문은 대규모 언어 모델(LLM)의 효율적인 대안으로 주목받는 소규모 언어 모델(SLM)의 엣지 디바이스 배포를 위한 모델 압축의 효율성 격차 문제를 해결하고자 한다. 특히, 양자화 기법이 LLM에는 효과적이지만 SLM에는 충분히 연구되지 않았다는 점에 주목하여, SLM에 특화된 양자화 기법을 평가하기 위한 체계적인 벤치마크인 SLMQuant를 제시한다. 다양한 아키텍처와 태스크를 통해 최신 양자화 기법의 성능을 분석하고, SLM과 LLM의 양자화 민감도 차이를 밝힌다. SLM 양자화의 핵심 요인을 파악하고, SLM 맞춤형 압축을 위한 설계 원칙을 제안한다.