본 논문은 대규모 언어 모델(LLM) 추론 엔진에서 최초 토큰 생성 시간(TTFT)을 개선하는 SpecPrefill이라는 훈련이 필요 없는 프레임워크를 제시합니다. 기존 연구들이 주로 자기 주의 메커니즘에 초점을 맞춘 것과 달리, 본 논문은 계산 제약이 있는 TTFT 향상의 어려움을 인지하고, 성능 병목 현상이 MLP 부분으로 이동하는 점에 주목합니다. SpecPrefill은 LLMs가 신중하게 선택된 일부 프롬프트 토큰만으로도 품질을 유지할 수 있다는 통찰력에 기반하여, 경량 모델을 활용하여 중요 토큰을 예측하고, 이를 주 모델에 전달하여 처리 속도를 높입니다. 다양한 작업에 대한 평가와 실제 종단 간 설정 및 ablation study를 통한 성능 향상 벤치마킹을 수행하여 Llama-3.1-405B-Instruct-FP8에서 최대 7배의 종단 간 QPS 향상과 7.66배의 TTFT 개선을 달성했습니다.