Este artículo presenta un paradigma de edición de gráficos multimodales que combina lenguaje natural e indicadores visuales. Para abordar la ambigüedad de los métodos existentes de edición de gráficos basados en lenguaje natural, proponemos un método que expresa la intención del usuario en lenguaje natural e indicadores visuales que resaltan explícitamente los elementos a editar. Para respaldar esto, presentamos Chart$\text{M}^3$, un novedoso modelo de referencia para la edición de gráficos multimodales con complejidad multinivel y evaluación multifacética. Chart$\text{M}^3$ comprende 1000 muestras con cuatro niveles de dificultad de edición, cada uno compuesto por tres elementos: gráfico, código e indicadores multimodales. Proporcionamos métricas que evalúan tanto la apariencia visual como la corrección del código, lo que nos permite evaluar exhaustivamente los modelos de edición de gráficos. A través de Chart$\text{M}^3$, este artículo demuestra las limitaciones de los modelos de lenguaje multimodales a gran escala (MLLM) actuales, en particular su incapacidad para interpretar y aplicar indicadores visuales. Para abordar estas limitaciones, construimos Chart$\text{M}^3$-Train, un conjunto de datos de entrenamiento a gran escala compuesto por 24 000 muestras de edición de gráficos multimodales. El ajuste de MLLM en este conjunto de datos mejora significativamente el rendimiento, lo que demuestra la importancia del aprendizaje supervisado multimodal. El conjunto de datos, el código y las herramientas de evaluación están disponibles en GitHub.