본 논문은 대규모 언어 모델(LLM) 추론 속도를 높이는 새로운 기법인 SpecEE를 제시합니다. SpecEE는 추론 과정에서 조기에 종료하는 기법(early exiting)을 활용하며, 알고리즘, 시스템, 매핑 세 가지 수준에서 개선을 이루었습니다. 알고리즘 수준에서는 예측 토큰과 정답 간의 상관관계와 GPU의 병렬 처리 능력을 활용한 경량 예측 설계를 제안합니다. 시스템 수준에서는 모든 계층에 예측기가 필요하지 않다는 점을 지적하고, 분포의 비대칭성과 문맥 유사성을 기반으로 한 2단계 휴리스틱 예측기 스케줄링 엔진을 설계했습니다. 매핑 수준에서는 다양한 디코딩 방법이 공통적인 특징을 가진다는 점에 착안하여, GPU 구현에 효율적인 문맥 인식 병합 매핑을 제안하고, 양자화 및 희소 활성화와 같은 기존 가속 기법들과의 통합 프레임워크를 제시합니다. SpecEE는 사전 훈련 오버헤드가 거의 없이 모든 LLM에 적용 가능하며, Llama2-7B 모델을 사용한 실험 결과 클라우드 환경과 PC 환경에서 각각 2.25배와 2.43배의 속도 향상을 달성했습니다.