본 논문은 클라우드부터 네트워크 에지까지 다양한 컴퓨팅 환경에서 언어 모델(LM)을 배포하려는 움직임에 대해 다룹니다. 모델 압축 기술의 발전으로 가능해진 소형 언어 모델(SLM)을 중심으로, 자원 제약이 있는 에지 플랫폼에서의 온디바이스 추론에 대한 가능성을 탐구합니다. 단일 에지 디바이스에서의 SLM 성능 벤치마킹을 시작으로 분산 에지 클러스터까지 확장하여 에지 추론과 클라우드 추론의 상호작용을 분석합니다. 비용 절감 및 성능 향상을 위한 에지 추론의 장점과 확장성 및 모델 용량의 한계로 인해 클라우드로의 전환이 불가피한 상황을 제시하며, 이는 특정 환경에 맞는 최적의 해결책을 제시하기보다는 이기종 환경에서 효율적이고 적응적인 LM 추론 시스템 구축을 위한 플랫폼 수준의 비교 및 설계 통찰력을 제공합니다.