본 논문은 대규모 언어 모델(LLM)의 복잡성 증가와 에지 디바이스의 제한된 연산 능력 간의 격차를 해소하기 위한 새로운 프레임워크인 \acronym을 제안합니다. 기존의 양자화, 가지치기, 원격 추론과 같은 전략들은 정확도 저하 또는 높은 비용을 초래하는 반면, \acronym은 이기종 디바이스 간의 연산을 조율하여 추론 효율을 높입니다. 경량 에지 디바이스는 다양한 모델을 사용하여 여러 후보 토큰을 생성하고, 공유 에지 서버는 더 정확한 모델을 사용하여 토큰을 검증합니다. 서버는 여러 디바이스의 검증 요청을 배치 처리하여 효율성을 높이고, 동일한 상위 모델을 공유하여 메모리 사용량을 줄입니다. Jetson Orin Nano, Raspberry Pi 4B/5 및 4개의 Nvidia A100 GPU가 장착된 에지 서버를 사용한 초기 실험 결과, 시스템 처리량 2.2배 증가, 시스템 용량 2.8배 증가, 비용 효율성 향상을 보였으며, 모델 정확도 저하는 없었습니다.