Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

SpecVLM: Mejora de la decodificación especulativa de LLM de vídeo mediante la poda de tokens guiada por verificador

Created by
  • Haebom

Autor

Yicheng Ji, Jun Zhang, Heming Xia, Jinpeng Chen, Lidan Shou, Gang Chen, Huan Li

Describir

Este artículo propone SpecVLM, un marco de decodificación especulativa (SD) sin entrenamiento para la decodificación eficiente de Modelos de Lenguaje de Video a Gran Escala (Vid-LLM). Si bien los Vid-LLM demuestran un rendimiento potente en la comprensión de contenido de video, sus densas representaciones de tokens de video generan una sobrecarga significativa de memoria y computacional. SpecVLM minimiza la pérdida de información y mejora la velocidad de decodificación mediante la poda gradual de tokens de video. Observamos que la estimación del modelo preliminar es insensible a la poda de tokens de video, manteniendo la precisión al podar hasta el 90% de los tokens de video. Este proceso consta de dos etapas: la primera etapa selecciona tokens ricos en información basándose en la señal de atención del modelo objetivo, y la segunda etapa poda los tokens redundantes de forma espacial y uniforme. Los resultados experimentales demuestran mejoras en la velocidad de decodificación de hasta 2,68x en LLaVA-OneVision-72B y hasta 2,11x en Qwen2.5-VL-32B.

Takeaways, Limitations

Takeaways:
Presentamos un marco de decodificación especulativa eficiente y sin entrenamiento que mejora drásticamente la velocidad de decodificación de Vid-LLM.
La poda de tokens de video puede ahorrar memoria y recursos computacionales.
Funciona eficazmente incluso en modelos grandes como LLaVA-OneVision-72B y Qwen2.5-VL-32B.
Se han mejorado la reproducibilidad y la usabilidad mediante código abierto.
Limitations:
La efectividad del método propuesto puede limitarse a modelos Vid-LLM específicos y a puntos de referencia de comprensión de video.
La estrategia de poda óptima puede variar según el modelo y el conjunto de datos.
Se necesitan experimentos con conjuntos de datos y modelos de vídeo más diversos.
Se necesitan más análisis para comprender la degradación de la precisión de la decodificación especulativa.
👍