Este artículo propone CoViPAL, un novedoso método de poda de tokens visuales para mejorar la eficiencia de inferencia de modelos de visión-lenguaje a gran escala (LVLM). Los LVLM procesan entradas multimodales que consisten en tokens visuales y textuales extraídos de imágenes o videos. La abundancia de información visual genera una gran cantidad de tokens visuales, lo que resulta en altos costos computacionales y sobrecarga de memoria. Si bien los métodos de poda existentes son efectivos para eliminar tokens visuales redundantes, presentan dificultades debido a la falta de información contextual en capas superficiales. CoViPAL elimina eficazmente tokens visuales innecesarios incluso en capas superficiales mediante el uso del Módulo de Poda Plug-and-Play (PPM), que predice y elimina tokens redundantes antes de que el LVLM los procese. El PPM es ligero y opera independientemente del modelo, lo que garantiza una integración fluida con varios modelos. Los resultados experimentales en varios puntos de referencia demuestran que CoViPAL supera a los métodos de poda sin entrenamiento existentes con el mismo presupuesto de tokens y supera a los métodos basados en aprendizaje existentes utilizando niveles similares de aprendizaje supervisado.