Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

ExpVG: Investigación del espacio de diseño de la base visual en un modelo de lenguaje multimodal de gran tamaño

Created by
  • Haebom

Autor

Weitai Kang, Weiming Zhuang, Zhizhong Li, Yan Yan, Lingjuan Lyu

Describir

Este artículo presenta un estudio exhaustivo de las características multimodales de grano fino en modelos lingüísticos multimodales a gran escala (MLLM), abordando específicamente el problema de la verdad fundamental visual (VG). Si bien estudios previos han empleado diversas opciones de diseño, ha faltado una validación sistemática que las respalde. Este estudio analiza diversas opciones de diseño que afectan el rendimiento de la VG de los MLLM utilizando LLaVA-1.5. Mediante la exploración de paradigmas de VG en MLLM y un estudio de ablación del diseño de la verdad fundamental, proponemos un método para optimizar el rendimiento de la VG. Como resultado, logramos mejoras de rendimiento del +5,6 %, +6,9 % y +7,0 % en RefCOCO/+/g en comparación con LLaVA-1.5.

Takeaways, Limitations

Takeaways:
Proporcionamos un análisis sistemático de varias opciones de diseño para mejorar el rendimiento de la verdad visual fundamental (VG) de MLLM.
Proporciona información sobre paradigmas VG efectivos y diseño de datos fundamentados.
Es probable que los resultados basados ​​en LLaVA-1.5 también sean aplicables a otras arquitecturas.
Logramos notables mejoras de rendimiento en el conjunto de datos RefCOCO/+/g.
Limitations:
Nuestro estudio se realizó con base en LLaVA-1.5, y se necesita más investigación para determinar la generalización de nuestros resultados a modelos más recientes.
La gama de opciones de diseño utilizadas en el análisis puede ser limitada.
Se requiere una verificación adicional de la generalización a otras arquitecturas MLLM.
👍