본 논문은 제한된 메모리와 전력 제약으로 인해 에지 디바이스에서 고급 대규모 언어 모델(LLM)의 효율적인 추론이 어려운 문제를 다룹니다. 기존의 양자화, 가지치기, 원격 추론과 같은 전략들은 정확도와 효율성 간의 절충 또는 상당한 비용 부담을 초래합니다. 이 논문에서는 이전에는 주로 LLM의 자동 회귀 생성을 위한 디코딩 가속 기술로 여겨졌던 추측적 디코딩을 활용하는 새로운 접근 방식을 제시합니다. 이는 이종 디바이스 간의 연산을 조정함으로써 에지 컴퓨팅에 특별히 적합하도록 설계되었습니다. 제안된 방법(\acronym)은 경량 에지 디바이스가 다양한 초안 모델을 사용하여 여러 후보 토큰을 로컬로 작성하고, 단일 공유 에지 서버가 더 정확한 대상 모델을 사용하여 토큰을 효율적으로 배치하고 검증할 수 있도록 합니다. 이 접근 방식은 디바이스 이종성을 지원하고 여러 대상 모델을 배포할 필요가 없으므로 서버 측 메모리 공간을 줄입니다. Jetson Orin Nano, Raspberry Pi 4B/5 및 4개의 Nvidia A100 GPU가 장착된 에지 서버를 사용한 초기 실험 결과, 모델 정확도를 희생하지 않고 시스템 처리량, 용량 및 비용 효율성이 크게 향상되는 것을 보여줍니다.