Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Démasquer les visuels trompeurs : analyse comparative des modèles linguistiques multimodaux volumineux sur la réponse aux questions graphiques trompeuses

Created by
  • Haebom

Auteur

Zixin Chen, Sicheng Song, Kashun Shum, Yanna Lin, Rui Sheng, Huamin Qu

Contour

Cet article aborde le problème des visuels trompeurs, qui manipulent des graphiques pour étayer des affirmations spécifiques, susceptibles de fausser la perception et de conduire à des conclusions erronées. Si les modèles linguistiques multimodaux à grande échelle (MLLM) existants excellent dans la compréhension des graphiques, leur capacité à détecter et interpréter ces derniers reste sous-explorée. Par conséquent, cette étude présente le benchmark Misleading ChartQA, un ensemble de données multimodales à grande échelle, visant à évaluer les performances des MLLM en matière d'inférence de graphiques trompeurs. Cet ensemble de données comprend 3 026 exemples couvrant 21 types d'éléments trompeurs et 10 types de graphiques, et comprend des codes graphiques standardisés, des données CSV, des questions à choix multiples et des descriptions étiquetées. Nous comparons 24 MLLM de pointe afin d'analyser leurs performances sur différents types d'éléments trompeurs et formats de graphiques, et proposons un nouveau pipeline d'inférence sensible au domaine qui améliore la précision du modèle. Cette étude pose les bases du développement de MLLM robustes et fiables, répondant aux exigences d'une communication visuelle responsable.

Takeaways, Limitations_

Takeaways:
Nous présentons un ensemble de données multimodales à grande échelle (Misleading ChartQA) pour évaluer les performances de MLLM dans la détection et l'interprétation des graphiques trompeurs.
Fournit une analyse des performances de MLLM pour différents types de facteurs trompeurs et de formats de graphiques.
Proposer un nouveau pipeline d’inférence sensible au domaine pour améliorer la précision du modèle.
Contribuer au développement d'un MLLM robuste et fiable pour une communication visuelle responsable.
Limitations:
La portée de l'ensemble de données Misleading ChartQA peut ne pas couvrir entièrement tous les types d'éléments et de formats de graphiques trompeurs.
Des recherches supplémentaires sont nécessaires sur les performances de généralisation du pipeline d’inférence sensible au domaine proposé.
Des recherches supplémentaires sont nécessaires pour explorer l’applicabilité du MLLM aux données visuelles complexes du monde réel.
👍