온디바이스 대규모 언어 모델(LLM) 추론에 대한 수요 증가로 인해, 엣지 하드웨어에 경량화되고 비용 효율적인 AI 솔루션을 배포하는 데 관심이 높아지고 있습니다. Raspberry Pi 및 Orange Pi와 같은 단일 보드 컴퓨터(SBC)는 로컬화되고 개인 정보 보호가 가능한 추론을 위한 유망한 플랫폼이지만, LLM 워크로드 컨텍스트에서는 아직 충분히 탐구되지 않았습니다. 본 연구에서는 Ollama 및 Llamafile 두 가지 추론 런타임을 사용하여 Raspberry Pi 4, Raspberry Pi 5, Orange Pi 5 Pro 세 가지 SBC에서 25개의 양자화된 오픈 소스 LLM의 성능을 벤치마킹했습니다. 다양한 CPU 구성을 사용하여 여러 프롬프트 유형으로 현실적인 워크로드를 시뮬레이션하여 생성 처리량, 메모리 사용량 및 전력 소비량을 평가했습니다. 결과적으로 SBC는 최대 1.5B 파라미터의 모델을 안정적으로 지원할 수 있으며, Llamafile은 Ollama보다 최대 4배 높은 처리량과 30-40% 낮은 전력 사용량을 달성했습니다. 아키텍처별 병목 현상을 식별하고, 런타임 수준의 트레이드 오프를 강조하며, 실용적인 배포 권장 사항을 제공합니다. 본 연구는 SBC에서 LLM 추론에 대한 최초의 광범위한 평가를 제공하며, 고성능 언어 모델과 저렴한 엣지 컴퓨팅 간의 격차를 해소합니다.