본 논문은 모바일 기기, 웨어러블 기기, 로봇 등 에지 디바이스에서 대규모 언어 모델(LLM)을 효율적으로 활용하기 위한 새로운 프레임워크를 제안합니다. 기존 클라우드 기반 LLM 활용의 높은 비용과 지연시간 문제를 해결하기 위해, 서버의 큰 타겟 모델과 에지 디바이스의 작은 드래프트 모델을 활용하는 추측적 에지-클라우드 디코딩 프레임워크를 제시합니다. 이 프레임워크는 타겟 모델의 조기 종료(early exit) 기법과 예측적 드래프팅을 통해 에지와 클라우드 간 병렬 처리를 향상시켜 지연 시간을 단축하고 비용을 절감합니다. NVIDIA Jetson Nano와 A100 GPU를 이용한 실험과 Unitree Go2 로봇에 대한 VLM 기반 제어 적용 결과를 통해 제안된 방법의 효율성을 검증합니다.