Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Production-Grade Local LLM Inference on Apple Silicon: A Comparative Study of MLX, MLC-LLM, Ollama, llama.cpp, and PyTorch MPS

Created by
  • Haebom
Category
Empty

저자

Varun Rajesh, Om Jodhpurkar, Pooja Anbuselvan, Mantinder Singh, Ashok Jallepali, Shantanu Godbole, Pradeep Kumar Sharma, Hritvik Shrivastava

개요

Apple Silicon 기반의 5가지 로컬 대규모 언어 모델(LLM) 런타임(MLX, MLC-LLM, llama.cpp, Ollama, PyTorch MPS)에 대한 체계적인 경험적 평가를 제시합니다. M2 Ultra 프로세서와 192GB 통합 메모리를 갖춘 Mac Studio에서 Qwen-2.5 모델 제품군을 사용하여, TTFT, 처리량, 지연 시간, 긴 컨텍스트 동작, 양자화 지원, 스트리밍 성능, 배치 및 동시성 동작, 배포 복잡성을 측정했습니다. MLX는 가장 높은 지속적 생성 처리량을 달성했으며, MLC-LLM은 중간 프롬프트 크기에 대해 일관되게 낮은 TTFT를 제공하며, llama.cpp는 가벼운 단일 스트림 사용에 효율적이며, Ollama는 개발자 편의성을 강조하지만 처리량과 TTFT에서 뒤처집니다. PyTorch MPS는 대형 모델 및 긴 컨텍스트에서 메모리 제약으로 제한됩니다. 모든 프레임워크는 텔레메트리 없이 완전히 온디바이스에서 실행되어 강력한 개인 정보 보호를 보장합니다.

시사점, 한계점

MLX는 가장 높은 지속적 생성 처리량을 제공합니다.
MLC-LLM은 중간 크기 프롬프트에서 낮은 TTFT를 제공하며, 즉시 사용 가능한 추론 기능이 우수합니다.
llama.cpp는 가벼운 단일 스트림 사용에 효율적입니다.
Ollama는 개발자 편의성을 중시하지만 처리량 및 TTFT가 낮습니다.
PyTorch MPS는 대형 모델과 긴 컨텍스트에서 메모리 제약이 있습니다.
Apple Silicon 기반 LLM 추론 프레임워크는 NVIDIA GPU 기반 시스템에 비해 절대 성능은 뒤떨어지지만, 개인 정보 보호를 위한 온디바이스 LLM 추론 솔루션으로 빠르게 발전하고 있습니다.
연구 결과는 Apple Silicon 중심의 LLM 배포에서의 설계 트레이드 오프를 명확히 하며, 대화형 및 긴 컨텍스트 처리를 위한 증거 기반 권장 사항을 제공합니다.
실험은 M2 Ultra 프로세서를 사용한 Mac Studio 환경에 국한됩니다.
평가 모델은 Qwen-2.5 모델 제품군에 한정됩니다.
NVIDIA GPU 기반 시스템과 비교하여 절대 성능이 낮습니다.
👍