Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

CoViPAL: Poda de tokens visuales contextualizados por capas para grandes modelos de visión y lenguaje

Created by
  • Haebom

Autor

Zicong Tang, Ziyang Ma, Suqing Wang, Zuchao Li, Lefei Zhang, Hai Zhao, Yun Li, Qianren Wang

Describir

Este artículo propone CoViPAL, un novedoso método de poda de tokens visuales para mejorar la eficiencia de inferencia de modelos de visión-lenguaje a gran escala (LVLM). Los LVLM procesan entradas multimodales que consisten en tokens visuales y textuales extraídos de imágenes o videos. La abundancia de información visual genera una gran cantidad de tokens visuales, lo que resulta en altos costos computacionales y sobrecarga de memoria. Si bien los métodos de poda existentes son efectivos para eliminar tokens visuales redundantes, presentan dificultades debido a la falta de información contextual en capas superficiales. CoViPAL elimina eficazmente tokens visuales innecesarios incluso en capas superficiales mediante el uso del Módulo de Poda Plug-and-Play (PPM), que predice y elimina tokens redundantes antes de que el LVLM los procese. El PPM es ligero y opera independientemente del modelo, lo que garantiza una integración fluida con varios modelos. Los resultados experimentales en varios puntos de referencia demuestran que CoViPAL supera a los métodos de poda sin entrenamiento existentes con el mismo presupuesto de tokens y supera a los métodos basados ​​en aprendizaje existentes utilizando niveles similares de aprendizaje supervisado.

Takeaways, Limitations

Takeaways:
Presentamos un método efectivo y escalable para mejorar la eficiencia de inferencia de LVLM.
Fácil de adaptar a varios modelos mediante módulos de poda plug-and-play livianos e independientes del modelo (PPM).
Logra un rendimiento superior al de los métodos de poda sin aprendizaje existentes y los métodos basados ​​en aprendizaje.
Permite una poda visual eficaz de tokens incluso en capas superficiales.
Limitations:
Se necesita más investigación sobre el rendimiento de generalización del módulo PPM presentado en este artículo.
Se necesitan más experimentos con diferentes tipos de LVLM y modelos de diferentes tamaños.
Aunque se afirma que el coste computacional del módulo PPM es muy pequeño, se necesita un análisis más profundo para determinar la sobrecarga que puede ocurrir en aplicaciones prácticas.
👍