Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ChartM$^3$ : Analyse comparative de l'édition de graphiques avec des instructions multimodales

Created by
  • Haebom

Auteur

Donglu Yang, Liang Zhang, Zihao Yue, Liangyu Chen, Yichen Xu, Wenxuan Wang, Qin Jin

Contour

Cet article présente un paradigme d'édition de graphiques multimodal combinant langage naturel et indicateurs visuels. Pour lever l'ambiguïté des méthodes d'édition de graphiques basées sur le langage naturel, nous proposons une méthode qui exprime l'intention de l'utilisateur en langage naturel et en indicateurs visuels mettant explicitement en évidence les éléments à éditer. Pour étayer cette approche, nous présentons Chart$\text{M}^3$, un nouveau benchmark d'édition de graphiques multimodaux offrant une complexité multiniveau et une évaluation multifacette. Chart$\text{M}^3$ comprend 1 000 échantillons avec quatre niveaux de difficulté d'édition, chacun composé de trois éléments : graphique, code et indicateurs multimodaux. Nous fournissons des indicateurs évaluant à la fois l'apparence visuelle et l'exactitude du code, ce qui nous permet d'évaluer de manière exhaustive les modèles d'édition de graphiques. Grâce à Chart$\text{M}^3$, cet article démontre les limites des modèles de langage multimodaux à grande échelle (MLLM) actuels, notamment leur incapacité à interpréter et à appliquer des indicateurs visuels. Pour pallier ces limites, nous construisons Chart$\text{M}^3$-Train, un jeu de données d'apprentissage à grande échelle composé de 24 000 échantillons d'édition de graphiques multimodaux. Le réglage fin de MLLM sur cet ensemble de données améliore considérablement les performances, démontrant l'importance de l'apprentissage supervisé multimodal. L'ensemble de données, le code et les outils d'évaluation sont disponibles sur GitHub.

Takeaways, Limitations

Takeaways:
Présentation d’un nouveau paradigme pour l’édition de graphiques à l’aide d’une entrée multimodale.
Un nouveau benchmark, Chart$\text{M}^3$, est fourni, prenant en compte la complexité multicouche et l'évaluation multi-facettes.
Révéler les limites de la capacité des MLLM existants à interpréter et à appliquer des indicateurs visuels.
Amélioration des performances MLLM avec l'ensemble de données d'apprentissage multimodal à grande échelle Chart$\text{M}^3$-Train.
Souligner l’importance de l’apprentissage supervisé multimodal dans le développement de systèmes d’édition de graphiques.
Limitations:
Le nombre d'échantillons (1 000) dans le benchmark Chart$\text{M}^3$ peut être relativement faible.
Des recherches supplémentaires sont nécessaires sur les performances de généralisation sur différents types de graphiques et de tâches d’édition.
Des recherches supplémentaires sont nécessaires pour surmonter les limites du MLLM actuel (par exemple, développer des modèles de compréhension visuelle plus sophistiqués).
👍