Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Edge Deployment of Small Language Models, a comprehensive comparison of CPU, GPU and NPU backends

Created by
  • Haebom
Category
Empty

저자

Pablo Prieto, Pablo Abad

개요

엣지 컴퓨팅은 데이터가 생성되는 위치에서 데이터를 처리하여 더 빠른 의사 결정, 더 적은 대역폭 사용, 향상된 개인 정보를 가능하게 합니다. 그러나 엣지 장치는 일반적으로 제한된 처리 능력, 메모리 및 에너지 소비 제약으로 인해 대규모 언어 모델(LLM)에 적합하지 않습니다. 다행히 소규모 언어 모델(SLM)은 컴퓨팅 비용을 크게 줄이면서 전문화 및 사용자 정의에 적합하여 리소스가 제한된 환경으로 AI 추론을 가져오는 경량 대안을 제공합니다. 이 시나리오에서 SLM 추론에 대한 성능과 효율성을 가장 잘 균형을 이루는 하드웨어 플랫폼을 선택하는 것은 엄격한 리소스 제한으로 인해 어렵습니다. 이 연구는 SLM을 실행하기 위한 상용 CPU(Intel 및 ARM), GPU(NVIDIA) 및 NPU(RaiderChip)의 추론 성능 및 에너지 효율성을 평가합니다. 일반적으로 선택하는 플랫폼인 GPU는 상용 NPU 및 최신 멀티 코어 CPU와 비교됩니다. NPU는 계산에 최적화된 맞춤형 하드웨어 설계를 활용하는 반면, 최신 CPU는 언어 모델 워크로드를 대상으로 하는 전용 기능을 점점 더 많이 통합하고 있습니다. 일반적인 실행 프레임워크와 최첨단 SLM 제품군을 사용하여 각 플랫폼에서 사용할 수 있는 상용 솔루션 전반에 걸쳐 최대 달성 가능한 성능과 처리 및 에너지 효율성을 분석합니다. 결과는 특수 백엔드가 범용 CPU보다 뛰어나고 NPU가 월등한 성능을 달성함을 나타냅니다. 대역폭 정규화는 아키텍처 간 공정한 비교에 필수적임이 입증되었습니다. 저전력 ARM 프로세서는 에너지 사용량을 고려할 때 경쟁력 있는 결과를 제공하지만, 성능과 전력을 결합한 지표(예: EDP)는 NPU를 다시 지배적인 아키텍처로 강조합니다. 이러한 결과는 효율성과 성능 모두에 최적화된 설계가 엣지 워크로드에 명확한 이점을 제공함을 보여줍니다.

시사점, 한계점

시사점:
특수화된 백엔드(NPU)는 범용 CPU보다 SLM 추론에서 더 나은 성능을 보입니다.
NPU는 최고의 성능을 달성합니다.
저전력 ARM 프로세서는 에너지 효율성 측면에서 경쟁력이 있습니다.
성능과 전력을 결합한 지표(EDP)는 NPU가 지배적임을 강조합니다.
효율성과 성능에 최적화된 설계는 엣지 워크로드에 명확한 이점을 제공합니다.
한계점:
논문에 명시된 한계점은 없음.
👍