본 논문은 매우 긴 문맥을 처리할 수 있는 대규모 언어 모델(LLM)의 효율적인 추론을 위한 새로운 프레임워크인 LongSpec을 제안합니다. 기존의 추측적 디코딩(SD) 방법들은 짧은 문맥에 대해 훈련되어 긴 문맥에서는 성능 저하를 보이는데, LongSpec은 메모리 효율적인 초안 모델, 훈련-추론 불일치를 완화하는 새로운 위치 인덱스, 그리고 효율적인 디코딩을 위한 어텐션 집계 전략을 통해 이 문제를 해결합니다. 실험 결과, LongSpec은 다섯 가지 긴 문맥 이해 데이터셋에서 기존 방법보다 최대 3.26배 빠른 속도를 달성했으며, AIME24 장문 추론 작업에서는 2.25배의 벽시계 시간 감소를 보였습니다.