본 논문은 수십억 개의 파라미터를 가진 대규모 언어 모델(LM)의 경량화 및 에지 디바이스(CPU 및 GPU 기반) 상에서의 추론 실행에 대한 포괄적인 평가를 제시합니다. 양자화 등의 모델 압축 기술을 통해 축소된 크기의 LM (100억 파라미터 미만)을 에지 디바이스에서 실행하는 것의 장점(개선된 개인정보 보호, 낮은 지연 시간, 향상된 데이터 주권)과 단점(메모리 사용량, 추론 속도, 에너지 소비 등의 제약)을 다양한 디바이스 설정에서 측정하고 분석합니다. 특히 메모리 및 에너지 제약, 처리량-에너지 트레이드오프, 비용 고려 사항 및 사용성을 포함하여 정량적 및 정성적 모델 성능을 평가합니다. 연구는 에지 디바이스 상에서의 LM 실행의 실질적인 어려움과 그 해결 방안 모색에 초점을 맞추고 있으며, 향후 연구를 위한 기반을 제공하고자 합니다.