Cet article propose SpecVLM, un framework de décodage spéculatif (SD) sans apprentissage pour un décodage efficace des modèles de langage vidéo à grande échelle (Vid-LLM). Si les Vid-LLM affichent de puissantes performances en compréhension de contenu vidéo, leurs représentations denses de jetons vidéo entraînent une surcharge mémoire et de calcul importante. SpecVLM minimise les pertes d'informations et améliore la vitesse de décodage grâce à un élagage progressif des jetons vidéo. Nous constatons que l'estimation du modèle préliminaire est insensible à l'élagage des jetons vidéo, conservant ainsi sa précision tout en élaguant jusqu'à 90 % des jetons vidéo. Ce processus se déroule en deux étapes : la première étape sélectionne les jetons riches en informations en fonction du signal d'attention du modèle cible, et la seconde étape élague les jetons redondants de manière spatiale et uniforme. Les résultats expérimentaux démontrent des améliorations de la vitesse de décodage allant jusqu'à 2,68 x sur LLaVA-OneVision-72B et jusqu'à 2,11 x sur Qwen2.5-VL-32B.