Cet article propose CoViPAL, une nouvelle méthode d'élagage de jetons visuels visant à améliorer l'efficacité d'inférence des modèles vision-langage à grande échelle (LVLM). Les LVLM traitent des entrées multimodales composées de jetons visuels et textuels extraits d'images ou de vidéos. L'abondance d'informations visuelles génère un grand nombre de jetons visuels, ce qui entraîne des coûts de calcul et une surcharge mémoire élevés. Si les méthodes d'élagage existantes sont efficaces pour supprimer les jetons visuels redondants, elles présentent des difficultés en raison du manque d'informations contextuelles dans les couches superficielles. CoViPAL supprime efficacement les jetons visuels inutiles, même dans les couches superficielles, grâce au module d'élagage Plug-and-Play (PPM), qui prédit et supprime les jetons redondants avant leur traitement par le LVLM. Le PPM est léger et fonctionne indépendamment du modèle, garantissant une intégration transparente avec différents modèles. Les résultats expérimentaux obtenus sur différents benchmarks démontrent que CoViPAL surpasse les méthodes d'élagage sans apprentissage existantes pour un même budget de jetons et les méthodes basées sur l'apprentissage existantes utilisant des niveaux similaires d'apprentissage supervisé.