# Small Language Models: Survey, Measurements, and Insights

### 저자

Zhenyan Lu, Xiang Li, Dongqi Cai, Rongjie Yi, Fangming Liu, Xiwen Zhang, Nicholas D. Lane, Mengwei Xu

### 개요

본 논문은 데이터센터 및 클라우드 환경에서 주로 사용되는 대규모 언어 모델(LLM)과 달리, 현대 스마트 기기에서 널리 사용되지만 학문적 관심이 상대적으로 적은 소규모 언어 모델(SLM)을 조사한 연구이다.  1억~50억 파라미터의 transformer 기반 디코더 전용 언어 모델에 초점을 맞춰, 70개의 최첨단 오픈소스 SLM을 분석한다.  분석 범위는 아키텍처, 훈련 데이터셋, 훈련 알고리즘 세 가지 축이며, 상식 추론, 문맥 내 학습, 수학, 코딩 등 다양한 영역에서의 성능을 평가하고 추론 지연 시간 및 메모리 사용량을 벤치마킹하여 온디바이스 실행 비용에 대한 통찰력을 제공한다.

### 시사점, 한계점

- **시사점:** 소규모 언어 모델(SLM)의 아키텍처, 훈련 데이터셋, 훈련 알고리즘에 대한 심층적인 분석을 통해 SLM 연구 발전에 기여한다.  다양한 도메인에서의 SLM 성능 평가 및 벤치마킹 데이터 분석을 통해 온디바이스 실행 비용에 대한 귀중한 통찰력을 제공한다.  SLM의 실용적인 활용 및 발전 방향을 제시한다.

- **한계점:** 분석 대상이 70개의 오픈소스 SLM으로 제한되어 있으며,  모든 SLM을 포괄적으로 다루지는 못했을 가능성이 있다.  평가 지표 및 벤치마킹 방법론의 한계로 인해, SLM의 성능을 완벽하게 반영하지 못할 수 있다.  특정 아키텍처나 훈련 방법에 치우친 분석 결과일 가능성이 있다.

[PDF 보기](https://arxiv.org/pdf/2409.15790)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).