본 논문은 대규모 언어 모델(LLM)의 자기회귀 토큰 생성 과정을 가속화하기 위한 새로운 추측적 디코딩(SPD) 방법인 Gumiho를 제안합니다. 기존 SPD 방법들은 생성 시퀀스 내 모든 토큰을 동일하게 취급하지만, Gumiho는 초기 토큰이 후기 토큰보다 중요하다는 점에 착안하여, 초기 토큰에는 정교한 Transformer 아키텍처를 사용하여 정확도를 높이고, 후기 토큰에는 경량 MLP 헤드를 병렬로 사용하여 효율성을 높이는 하이브리드 모델을 제시합니다. 실험 결과, Gumiho는 기존 방법들을 능가하는 성능을 보임으로써 제안된 방법의 효과를 검증합니다.