Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

ChartM$^3$: Evaluación comparativa de la edición de gráficos con instrucciones multimodales

Created by
  • Haebom

Autor

Donglu Yang, Liang Zhang, Zihao Yue, Liangyu Chen, Yichen Xu, Wenxuan Wang, Qin Jin

Describir

Este artículo presenta un paradigma de edición de gráficos multimodales que combina lenguaje natural e indicadores visuales. Para abordar la ambigüedad de los métodos existentes de edición de gráficos basados en lenguaje natural, proponemos un método que expresa la intención del usuario en lenguaje natural e indicadores visuales que resaltan explícitamente los elementos a editar. Para respaldar esto, presentamos Chart$\text{M}^3$, un novedoso modelo de referencia para la edición de gráficos multimodales con complejidad multinivel y evaluación multifacética. Chart$\text{M}^3$ comprende 1000 muestras con cuatro niveles de dificultad de edición, cada uno compuesto por tres elementos: gráfico, código e indicadores multimodales. Proporcionamos métricas que evalúan tanto la apariencia visual como la corrección del código, lo que nos permite evaluar exhaustivamente los modelos de edición de gráficos. A través de Chart$\text{M}^3$, este artículo demuestra las limitaciones de los modelos de lenguaje multimodales a gran escala (MLLM) actuales, en particular su incapacidad para interpretar y aplicar indicadores visuales. Para abordar estas limitaciones, construimos Chart$\text{M}^3$-Train, un conjunto de datos de entrenamiento a gran escala compuesto por 24 000 muestras de edición de gráficos multimodales. El ajuste de MLLM en este conjunto de datos mejora significativamente el rendimiento, lo que demuestra la importancia del aprendizaje supervisado multimodal. El conjunto de datos, el código y las herramientas de evaluación están disponibles en GitHub.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo paradigma para la edición de gráficos utilizando entrada multimodal.
Se proporciona un nuevo punto de referencia, Chart$\text{M}^3$, que tiene en cuenta la complejidad de múltiples capas y la evaluación multifacética.
Revelar las limitaciones de la capacidad de los MLLM existentes para interpretar y aplicar indicadores visuales.
Mejora del rendimiento de MLLM con el conjunto de datos de aprendizaje multimodal a gran escala Chart$\text{M}^3$-Train.
Enfatizar la importancia del aprendizaje supervisado multimodal en el desarrollo de sistemas de edición de gráficos.
Limitations:
La cantidad de muestras (1000) en el punto de referencia Chart$\text{M}^3$ puede ser relativamente pequeña.
Se necesita más investigación sobre el rendimiento de generalización en diferentes tipos de gráficos y tareas de edición.
Se necesita más investigación para superar las limitaciones del MLLM actual (por ejemplo, desarrollar modelos de comprensión visual más sofisticados).
👍