Cet article présente un paradigme d'édition de graphiques multimodal combinant langage naturel et indicateurs visuels. Pour lever l'ambiguïté des méthodes d'édition de graphiques basées sur le langage naturel, nous proposons une méthode qui exprime l'intention de l'utilisateur en langage naturel et en indicateurs visuels mettant explicitement en évidence les éléments à éditer. Pour étayer cette approche, nous présentons Chart$\text{M}^3$, un nouveau benchmark d'édition de graphiques multimodaux offrant une complexité multiniveau et une évaluation multifacette. Chart$\text{M}^3$ comprend 1 000 échantillons avec quatre niveaux de difficulté d'édition, chacun composé de trois éléments : graphique, code et indicateurs multimodaux. Nous fournissons des indicateurs évaluant à la fois l'apparence visuelle et l'exactitude du code, ce qui nous permet d'évaluer de manière exhaustive les modèles d'édition de graphiques. Grâce à Chart$\text{M}^3$, cet article démontre les limites des modèles de langage multimodaux à grande échelle (MLLM) actuels, notamment leur incapacité à interpréter et à appliquer des indicateurs visuels. Pour pallier ces limites, nous construisons Chart$\text{M}^3$-Train, un jeu de données d'apprentissage à grande échelle composé de 24 000 échantillons d'édition de graphiques multimodaux. Le réglage fin de MLLM sur cet ensemble de données améliore considérablement les performances, démontrant l'importance de l'apprentissage supervisé multimodal. L'ensemble de données, le code et les outils d'évaluation sont disponibles sur GitHub.