Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

An Evaluation of LLMs Inference on Popular Single-board Computers

Created by
  • Haebom
Category
Empty

저자

Tung (Thomas), Nguyen, Tuyen Nguyen

개요

온디바이스 대규모 언어 모델(LLM) 추론에 대한 수요 증가로 인해, 엣지 하드웨어에 경량화되고 비용 효율적인 AI 솔루션을 배포하는 데 관심이 높아지고 있습니다. Raspberry Pi 및 Orange Pi와 같은 단일 보드 컴퓨터(SBC)는 로컬화되고 개인 정보 보호가 가능한 추론을 위한 유망한 플랫폼이지만, LLM 워크로드 컨텍스트에서는 아직 충분히 탐구되지 않았습니다. 본 연구에서는 Ollama 및 Llamafile 두 가지 추론 런타임을 사용하여 Raspberry Pi 4, Raspberry Pi 5, Orange Pi 5 Pro 세 가지 SBC에서 25개의 양자화된 오픈 소스 LLM의 성능을 벤치마킹했습니다. 다양한 CPU 구성을 사용하여 여러 프롬프트 유형으로 현실적인 워크로드를 시뮬레이션하여 생성 처리량, 메모리 사용량 및 전력 소비량을 평가했습니다. 결과적으로 SBC는 최대 1.5B 파라미터의 모델을 안정적으로 지원할 수 있으며, Llamafile은 Ollama보다 최대 4배 높은 처리량과 30-40% 낮은 전력 사용량을 달성했습니다. 아키텍처별 병목 현상을 식별하고, 런타임 수준의 트레이드 오프를 강조하며, 실용적인 배포 권장 사항을 제공합니다. 본 연구는 SBC에서 LLM 추론에 대한 최초의 광범위한 평가를 제공하며, 고성능 언어 모델과 저렴한 엣지 컴퓨팅 간의 격차를 해소합니다.

시사점, 한계점

시사점:
SBC는 최대 1.5B 파라미터 모델을 안정적으로 지원 가능.
Llamafile은 Ollama보다 더 높은 처리량과 낮은 전력 소비를 보임.
아키텍처별 병목 현상 및 런타임 수준의 트레이드 오프를 식별.
실용적인 배포 권장 사항 제공.
고성능 언어 모델과 저렴한 엣지 컴퓨팅의 격차 해소.
한계점:
25개의 양자화된 오픈 소스 LLM과 3개의 SBC에 대한 벤치마킹만 수행.
다양한 모델 크기 및 하드웨어 구성에 대한 확장성 평가 부족.
특정 런타임(Ollama, Llamafile)에 대한 성능 비교에 한정됨.
구체적인 아키텍처별 병목 현상에 대한 상세 분석 부족.
👍