Apple Silicon 기반의 5가지 로컬 대규모 언어 모델(LLM) 런타임(MLX, MLC-LLM, llama.cpp, Ollama, PyTorch MPS)에 대한 체계적인 경험적 평가를 제시합니다. M2 Ultra 프로세서와 192GB 통합 메모리를 갖춘 Mac Studio에서 Qwen-2.5 모델 제품군을 사용하여, TTFT, 처리량, 지연 시간, 긴 컨텍스트 동작, 양자화 지원, 스트리밍 성능, 배치 및 동시성 동작, 배포 복잡성을 측정했습니다. MLX는 가장 높은 지속적 생성 처리량을 달성했으며, MLC-LLM은 중간 프롬프트 크기에 대해 일관되게 낮은 TTFT를 제공하며, llama.cpp는 가벼운 단일 스트림 사용에 효율적이며, Ollama는 개발자 편의성을 강조하지만 처리량과 TTFT에서 뒤처집니다. PyTorch MPS는 대형 모델 및 긴 컨텍스트에서 메모리 제약으로 제한됩니다. 모든 프레임워크는 텔레메트리 없이 완전히 온디바이스에서 실행되어 강력한 개인 정보 보호를 보장합니다.