Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

AVG-LLaVA: Un modelo multimodal grande y eficiente con granularidad visual adaptativa

Created by
  • Haebom

Autor

Zhibin Lan, Liqiang Niu, Fandong Meng, Wenbo Li, Jie Zhou, Jinsong Su

Describir

Para abordar el problema de generar una gran cantidad de tokens visuales en el procesamiento de imágenes de alta resolución, este artículo propone AVG-LLaVA, un modelo multimodal a gran escala (LMM) que selecciona adaptativamente la granularidad visual basándose en las imágenes y directivas de entrada. AVG-LLaVA genera tokens visuales de diversas granularidades mediante múltiples capas de agrupación y selecciona la granularidad adecuada mediante un enrutador de granularidad visual compuesto por un transformador, un MLP y una capa de votantes. Además, presentamos RGLF, un novedoso método de entrenamiento que alinea las predicciones del enrutador con las preferencias del LMM sin necesidad de anotación manual adicional. Los resultados experimentales muestran que AVG-LLaVA alcanza un rendimiento excelente en 11 pruebas de referencia, reduce significativamente la cantidad de tokens visuales y mejora la velocidad de inferencia (p. ej., una reducción del 85,3 % en los tokens visuales y un aumento de 2,53 veces en la velocidad de inferencia en la prueba de referencia AI2D).

Takeaways, Limitations

Takeaways:
Se presenta un enfoque novedoso para abordar eficazmente el problema del exceso de tokens visuales que surge al procesar imágenes de alta resolución.
Ajuste de forma adaptativa la granularidad visual en función de las imágenes de entrada y las instrucciones para mejorar el rendimiento y la eficiencia.
Presentamos un método de entrenamiento RGLF que mejora la capacidad del modelo para seleccionar granularidad visual sin datos adicionales.
Demostró un rendimiento y una eficiencia superiores a los modelos existentes en varios puntos de referencia.
Limitations:
Se necesitan más investigaciones para investigar el rendimiento de generalización del método de entrenamiento RGLF propuesto y su aplicabilidad a otros LMM.
Se requiere una evaluación sólida de varios tipos de imágenes de alta resolución e instrucciones complejas.
Es necesario analizar la complejidad y el coste computacional de los enrutadores de granularidad visual.
👍