Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

InfoChartQA: Un referente para la respuesta a preguntas multimodales en gráficos infográficos

Created by
  • Haebom

Autor

Minzhi Lin, Tianchi Xie, Mengchen Liu, Yilin Ye, Changjian Chen, Shixia Liu

Describir

InfoChartQA es un nuevo punto de referencia para la comprensión de grafos de información con diversos elementos visuales (p. ej., imágenes, iconos). Para superar las limitaciones de los puntos de referencia de control de calidad visual existentes, creamos un conjunto de datos de 5642 pares de grafos de información y grafos generales con diferentes representaciones visuales, basados ​​en los mismos datos, e incluimos preguntas basadas en elementos visuales. La evaluación de 20 modelos lingüísticos multimodales a gran escala (MLLM) mostró una degradación significativa del rendimiento en grafos de información, especialmente en preguntas basadas en elementos visuales relacionados con metáforas. Este punto de referencia ofrece una nueva oportunidad para mejorar el rendimiento de los MLLM en la comprensión de grafos de información. El conjunto de datos está disponible públicamente en https://github.com/CoolDawnAnt/InfoChartQA .

Takeaways, Limitations

Takeaways:
Presentamos InfoChartQA, un nuevo referente para la comprensión de gráficos de información.
Presenta claramente las limitaciones de la capacidad de los MLLM existentes para comprender gráficos de información.
La capacidad de razonamiento visual de MLLM se puede evaluar a través de preguntas basadas en elementos visuales.
El análisis preciso de errores y los estudios de ablación son posibles mediante gráficos de información pareada y gráficos generales.
Presentamos una nueva dirección de investigación para mejorar la capacidad de comprensión de gráficos de información de MLLM.
Limitations:
Es necesaria una revisión más profunda de la diversidad y complejidad de los gráficos de información incluidos en el índice de referencia actual.
Es necesario ampliar los diferentes tipos de elementos visuales y tipos de preguntas.
Falta de metodologías específicas para mejorar el desempeño del MLLM en la comprensión de expresiones metafóricas utilizando elementos visuales.
👍