Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

B-VLLM: Un modelo de lenguaje de gran tamaño con tokens espacio-temporales equilibrados

Created by
  • Haebom

Autor

Zhuqiang Lu, Zhenfei Yin, Mengwei He, Zhihui Wang, Zicheng Liu, Zhiyong Wang, Kun Hu

Describir

Para abordar los desafíos de la comprensión de imágenes a largo plazo mediante un Modelo de Lenguaje de Visión a Gran Escala (VLLM), este artículo presenta un marco de VLLM Balanceado (B-VLLM) que utiliza un módulo de selección de fotogramas adaptativo condicional al texto, una técnica de fusión de tokens de fotogramas temporales, un módulo de muestreo de tokens espaciales y una estrategia de fusión. Para abordar los problemas que presentan los VLLM existentes, como la pérdida de información temporal o espacial debido al submuestreo de la imagen o la reducción del número de tokens visuales en cada fotograma, proponemos un método que utiliza eficazmente las claves espaciotemporales relevantes para la tarea, a la vez que limita el número de tokens visuales dentro de la ventana de contexto del VLLM. Los resultados experimentales demuestran que el B-VLLM presenta un rendimiento superior en diversas pruebas de comprensión de imágenes.

Takeaways, Limitations

Takeaways:
Hemos mejorado significativamente la eficiencia de la comprensión de imágenes a largo plazo basada en VLLM.
Minimizamos la pérdida de información relevante para la tarea mediante la selección de marcos adaptativos condicionales de texto y estrategias de fusión de tokens.
Logra un rendimiento superior al de los métodos existentes en varios puntos de referencia de comprensión de imágenes.
Se ha mejorado la reproducibilidad mediante código fuente abierto.
Limitations:
Falta un análisis detallado de la complejidad computacional del método propuesto.
Existe un potencial sesgo de rendimiento para ciertos tipos de datos de imágenes.
Se necesitan experimentos adicionales en tareas de comprensión de imágenes más diversas y complejas.
👍