본 논문은 비디오 대규모 언어 모델(Vid-LLMs)의 효율적인 디코딩을 위한 훈련 없이 동작하는 추측적 디코딩(Speculative Decoding, SD) 프레임워크인 SpecVLM을 제안합니다. Vid-LLMs는 비디오 콘텐츠 이해에 강력한 성능을 보이지만, 밀집된 비디오 토큰 표현으로 인해 메모리 및 계산 오버헤드가 상당합니다. SpecVLM은 단계적 비디오 토큰 가지치기를 통해 정보 손실을 최소화하고 디코딩 속도를 향상시킵니다. 초안 모델의 추측이 비디오 토큰 가지치기에 둔감하다는 점을 발견하여, 최대 90%의 비디오 토큰을 가지치기하면서 정확도를 유지합니다. 이는 검증자 모델(target model)의 어텐션 신호를 기반으로 정보가 풍부한 토큰을 선택하는 1단계와 공간적으로 균일하게 중복 토큰을 가지치는 2단계로 구성됩니다. 실험 결과, LLaVA-OneVision-72B에서 최대 2.68배, Qwen2.5-VL-32B에서 최대 2.11배의 디코딩 속도 향상을 달성했습니다.