엣지 컴퓨팅은 데이터가 생성되는 위치에서 데이터를 처리하여 더 빠른 의사 결정, 더 적은 대역폭 사용, 향상된 개인 정보를 가능하게 합니다. 그러나 엣지 장치는 일반적으로 제한된 처리 능력, 메모리 및 에너지 소비 제약으로 인해 대규모 언어 모델(LLM)에 적합하지 않습니다. 다행히 소규모 언어 모델(SLM)은 컴퓨팅 비용을 크게 줄이면서 전문화 및 사용자 정의에 적합하여 리소스가 제한된 환경으로 AI 추론을 가져오는 경량 대안을 제공합니다. 이 시나리오에서 SLM 추론에 대한 성능과 효율성을 가장 잘 균형을 이루는 하드웨어 플랫폼을 선택하는 것은 엄격한 리소스 제한으로 인해 어렵습니다. 이 연구는 SLM을 실행하기 위한 상용 CPU(Intel 및 ARM), GPU(NVIDIA) 및 NPU(RaiderChip)의 추론 성능 및 에너지 효율성을 평가합니다. 일반적으로 선택하는 플랫폼인 GPU는 상용 NPU 및 최신 멀티 코어 CPU와 비교됩니다. NPU는 계산에 최적화된 맞춤형 하드웨어 설계를 활용하는 반면, 최신 CPU는 언어 모델 워크로드를 대상으로 하는 전용 기능을 점점 더 많이 통합하고 있습니다. 일반적인 실행 프레임워크와 최첨단 SLM 제품군을 사용하여 각 플랫폼에서 사용할 수 있는 상용 솔루션 전반에 걸쳐 최대 달성 가능한 성능과 처리 및 에너지 효율성을 분석합니다. 결과는 특수 백엔드가 범용 CPU보다 뛰어나고 NPU가 월등한 성능을 달성함을 나타냅니다. 대역폭 정규화는 아키텍처 간 공정한 비교에 필수적임이 입증되었습니다. 저전력 ARM 프로세서는 에너지 사용량을 고려할 때 경쟁력 있는 결과를 제공하지만, 성능과 전력을 결합한 지표(예: EDP)는 NPU를 다시 지배적인 아키텍처로 강조합니다. 이러한 결과는 효율성과 성능 모두에 최적화된 설계가 엣지 워크로드에 명확한 이점을 제공함을 보여줍니다.