Este artículo propone SpecVLM, un marco de decodificación especulativa (SD) sin entrenamiento para la decodificación eficiente de Modelos de Lenguaje de Video a Gran Escala (Vid-LLM). Si bien los Vid-LLM demuestran un rendimiento potente en la comprensión de contenido de video, sus densas representaciones de tokens de video generan una sobrecarga significativa de memoria y computacional. SpecVLM minimiza la pérdida de información y mejora la velocidad de decodificación mediante la poda gradual de tokens de video. Observamos que la estimación del modelo preliminar es insensible a la poda de tokens de video, manteniendo la precisión al podar hasta el 90% de los tokens de video. Este proceso consta de dos etapas: la primera etapa selecciona tokens ricos en información basándose en la señal de atención del modelo objetivo, y la segunda etapa poda los tokens redundantes de forma espacial y uniforme. Los resultados experimentales demuestran mejoras en la velocidad de decodificación de hasta 2,68x en LLaVA-OneVision-72B y hasta 2,11x en Qwen2.5-VL-32B.