Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
InfoChartQA: Un referente para la respuesta a preguntas multimodales en gráficos infográficos
Created by
Haebom
Autor
Minzhi Lin, Tianchi Xie, Mengchen Liu, Yilin Ye, Changjian Chen, Shixia Liu
Describir
InfoChartQA es un nuevo punto de referencia para la comprensión de grafos de información con diversos elementos visuales (p. ej., imágenes, iconos). Para superar las limitaciones de los puntos de referencia de control de calidad visual existentes, creamos un conjunto de datos de 5642 pares de grafos de información y grafos generales con diferentes representaciones visuales, basados en los mismos datos, e incluimos preguntas basadas en elementos visuales. La evaluación de 20 modelos lingüísticos multimodales a gran escala (MLLM) mostró una degradación significativa del rendimiento en grafos de información, especialmente en preguntas basadas en elementos visuales relacionados con metáforas. Este punto de referencia ofrece una nueva oportunidad para mejorar el rendimiento de los MLLM en la comprensión de grafos de información. El conjunto de datos está disponible públicamente en https://github.com/CoolDawnAnt/InfoChartQA .