본 논문은 대규모 언어 모델(LLM) 추론의 비용 효율성을 높이기 위한 에지 지원 추론 프레임워크인 SpecEdge를 제안합니다. SpecEdge는 추측적 디코딩 기법을 사용하여 LLM 작업 부하를 에지 및 서버 GPU에 분산하고, 네트워크를 통해 토큰 출력만 교환합니다. 선제적 에지 초안 작성을 통해 에지 토큰 생성과 서버 검증을 겹치게 하고, 파이프라인 인식 스케줄링을 통해 여러 사용자 요청을 섞어 서버 측 처리량을 높입니다. 실험 결과, SpecEdge는 서버 처리량을 2.22배 향상시켜 전반적인 비용 효율성을 1.91배 높이고, 토큰 간 지연 시간을 11.24% 줄이는 것으로 나타났습니다.