Sign In

Small Language Models: Survey, Measurements, and Insights

Created by
  • Haebom
Category
Empty

저자

Zhenyan Lu, Xiang Li, Dongqi Cai, Rongjie Yi, Fangming Liu, Xiwen Zhang, Nicholas D. Lane, Mengwei Xu

개요

본 논문은 데이터센터 및 클라우드 환경에서 주로 사용되는 대규모 언어 모델(LLM)과 달리, 현대 스마트 기기에서 널리 사용되지만 학문적 관심이 상대적으로 적은 소규모 언어 모델(SLM)을 조사한 연구이다. 1억~50억 파라미터의 transformer 기반 디코더 전용 언어 모델에 초점을 맞춰, 70개의 최첨단 오픈소스 SLM을 분석한다. 분석 범위는 아키텍처, 훈련 데이터셋, 훈련 알고리즘 세 가지 축이며, 상식 추론, 문맥 내 학습, 수학, 코딩 등 다양한 영역에서의 성능을 평가하고 추론 지연 시간 및 메모리 사용량을 벤치마킹하여 온디바이스 실행 비용에 대한 통찰력을 제공한다.

시사점, 한계점

시사점: 소규모 언어 모델(SLM)의 아키텍처, 훈련 데이터셋, 훈련 알고리즘에 대한 심층적인 분석을 통해 SLM 연구 발전에 기여한다. 다양한 도메인에서의 SLM 성능 평가 및 벤치마킹 데이터 분석을 통해 온디바이스 실행 비용에 대한 귀중한 통찰력을 제공한다. SLM의 실용적인 활용 및 발전 방향을 제시한다.
한계점: 분석 대상이 70개의 오픈소스 SLM으로 제한되어 있으며, 모든 SLM을 포괄적으로 다루지는 못했을 가능성이 있다. 평가 지표 및 벤치마킹 방법론의 한계로 인해, SLM의 성능을 완벽하게 반영하지 못할 수 있다. 특정 아키텍처나 훈련 방법에 치우친 분석 결과일 가능성이 있다.
👍