Bài báo này trình bày một mô hình chỉnh sửa biểu đồ đa phương thức kết hợp ngôn ngữ tự nhiên và các chỉ báo trực quan. Để giải quyết sự mơ hồ của các phương pháp chỉnh sửa biểu đồ dựa trên ngôn ngữ tự nhiên hiện có, chúng tôi đề xuất một phương pháp thể hiện ý định của người dùng bằng ngôn ngữ tự nhiên và các chỉ báo trực quan, làm nổi bật rõ ràng các yếu tố cần chỉnh sửa. Để hỗ trợ điều này, chúng tôi giới thiệu Chart$\text{M}^3$, một chuẩn mực chỉnh sửa biểu đồ đa phương thức mới với độ phức tạp đa cấp và đánh giá đa diện. Chart$\text{M}^3$ bao gồm 1.000 mẫu với bốn mức độ khó chỉnh sửa, mỗi mức độ bao gồm ba yếu tố: biểu đồ, mã và các chỉ báo đa phương thức. Chúng tôi cung cấp các số liệu đánh giá cả hình thức trực quan và độ chính xác của mã, cho phép chúng tôi đánh giá toàn diện các mô hình chỉnh sửa biểu đồ. Thông qua Chart$\text{M}^3$, bài báo này chứng minh những hạn chế của các mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM) hiện tại, đặc biệt là khả năng diễn giải và áp dụng các chỉ báo trực quan. Để giải quyết những hạn chế này, chúng tôi xây dựng Chart$\text{M}^3$-Train, một tập dữ liệu huấn luyện quy mô lớn bao gồm 24.000 mẫu chỉnh sửa biểu đồ đa phương thức. Việc tinh chỉnh MLLM trên tập dữ liệu này giúp cải thiện đáng kể hiệu suất, chứng minh tầm quan trọng của học có giám sát đa phương thức. Tập dữ liệu, mã và các công cụ đánh giá có sẵn trên GitHub.