Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Desenmascarando imágenes engañosas: evaluación comparativa de modelos lingüísticos multimodales de gran tamaño para la respuesta a preguntas gráficas engañosas

Created by
  • Haebom

Autor

Zixin Chen, Sicheng Song, Kashun Shum, Yanna Lin, Rui Sheng, Huamin Qu

Describir

Este artículo aborda el problema de que las imágenes engañosas, que manipulan gráficos para respaldar afirmaciones específicas, pueden distorsionar la percepción y llevar a conclusiones erróneas. Si bien los modelos de lenguaje multimodal a gran escala (MLLM) existentes son excelentes para comprender gráficos, su capacidad para detectar e interpretar gráficos engañosos aún no se ha explorado lo suficiente. Por lo tanto, este estudio presenta el punto de referencia Misleading ChartQA, un conjunto de datos multimodales a gran escala, para evaluar el rendimiento de los MLLM en la inferencia de gráficos engañosos. Este conjunto de datos consta de 3026 ejemplos que cubren 21 tipos de elementos engañosos y 10 tipos de gráficos, y consta de códigos de gráficos estandarizados, datos CSV, preguntas de opción múltiple y descripciones etiquetadas. Realizamos un análisis comparativo de 24 MLLM de última generación para analizar su rendimiento en diferentes tipos de elementos engañosos y formatos de gráficos, y proponemos una novedosa canalización de inferencia con reconocimiento de dominio que mejora la precisión del modelo. Este estudio sienta las bases para el desarrollo de MLLM robustos y confiables que satisfagan las demandas de una comunicación visual responsable.

Takeaways, Limitations

Takeaways:
Presentamos un conjunto de datos multimodales a gran escala (Misleading ChartQA) para evaluar el desempeño de MLLM en la detección e interpretación de gráficos engañosos.
Proporciona análisis del rendimiento de MLLM para varios tipos de factores engañosos y formatos de gráficos.
Proponemos una nueva canalización de inferencia que tiene en cuenta el dominio para mejorar la precisión del modelo.
Contribuir al desarrollo de un MLLM robusto y confiable para una comunicación visual responsable.
Limitations:
Es posible que el alcance del conjunto de datos Misleading ChartQA no cubra por completo todos los tipos de elementos y formatos de gráficos engañosos.
Se necesitan más investigaciones sobre el rendimiento de generalización del proceso de inferencia consciente del dominio propuesto.
Se necesita más investigación para explorar la aplicabilidad de MLLM a datos visuales complejos en el mundo real.
👍