본 논문은 시각 언어 모델(VLMs)에서의 추측적 디코딩을 위한 실용적인 시스템인 SpecVLM을 제안합니다. SpecVLM은 EAGLE-2 스타일의 기준 모델인 EagleVLM을 기반으로, 전체 자동 회귀 추론 대비 1.52.3배의 종단 간 속도 향상을 제공합니다. 또한, 시각적 압축기를 사용하여 프루닝, 풀링, 합성곱, 리샘플러 기법 중에서 적응적으로 선택하여 FLOPs/파라미터와 정확도 간의 균형을 맞춰 추론 속도를 더욱 향상시킵니다. 비용이 많이 드는 오프라인 증류 코퍼스를 피하기 위해, 온라인 로짓 증류 프로토콜을 제안하여, 실시간으로 생성되는 teacher 로짓과 penultimate features를 사용하여 드래프트 모델을 학습합니다. 이 프로토콜은 온라인 학습 시간이 길어질수록 드래프트 모델의 평균 허용 길이가 증가하여 추측 효율이 향상되는 효과를 보여줍니다. 실험 결과, SpecVLM은 LLaVA와 MMMU에서 해상도와 작업 난이도에 관계없이 5 epoch 내에서 2.52.9배의 종단 간 속도 향상을 달성하며, 목표 모델의 출력 분포를 유지합니다.