본 논문은 대규모 언어 모델(LLM)의 복잡성 증가와 에지 디바이스의 제한된 연산능력 간의 차이를 해소하기 위한 새로운 프레임워크인 \acronym을 제시합니다. 기존의 양자화, 가지치기, 원격 추론과 같은 전략들은 정확도와 효율성 간의 절충 또는 상당한 비용 부담을 초래하는 반면, \acronym은 이종 디바이스 간의 연산을 조정하여 추측적 디코딩 기법을 에지 컴퓨팅에 적용합니다. 경량 에지 디바이스는 다양한 드래프트 모델을 사용하여 여러 후보 토큰을 생성하고, 공유 에지 서버는 더 정확한 타겟 모델을 사용하여 토큰을 검증합니다. 서버측 메모리 사용량을 줄이기 위해 여러 디바이스에서 동일한 업스트림 타겟 모델을 공유하고, 검증 요청을 배치 처리합니다. Jetson Orin Nano, Raspberry Pi 4B/5 및 4개의 Nvidia A100 GPU가 장착된 에지 서버를 사용한 초기 실험 결과, 시스템 처리량 2.2배 증가, 시스템 용량 2.8배 증가 및 향상된 비용 효율성을 보였으며, 모델 정확도는 유지되었습니다.