यह पत्र एक बहुविध चार्ट संपादन प्रतिमान प्रस्तुत करता है जो प्राकृतिक भाषा और दृश्य संकेतकों को जोड़ता है। मौजूदा प्राकृतिक भाषा-आधारित चार्ट संपादन विधियों की अस्पष्टता को दूर करने के लिए, हम एक ऐसी विधि प्रस्तावित करते हैं जो उपयोगकर्ता के इरादे को प्राकृतिक भाषा और दृश्य संकेतकों में व्यक्त करती है जो संपादित किए जाने वाले तत्वों को स्पष्ट रूप से हाइलाइट करते हैं। इसके समर्थन में, हम Chart$\text{M}^3$ प्रस्तुत करते हैं, जो बहु-स्तरीय जटिलता और बहुआयामी मूल्यांकन वाला एक नया बहुविध चार्ट संपादन बेंचमार्क है। Chart$\text{M}^3$ में संपादन कठिनाई के चार स्तरों वाले 1,000 नमूने शामिल हैं, जिनमें से प्रत्येक तीन तत्वों से बना है: चार्ट, कोड और बहुविध संकेतक। हम ऐसे मेट्रिक्स प्रदान करते हैं जो दृश्य उपस्थिति और कोड शुद्धता दोनों का आकलन करते हैं, जिससे हमें चार्ट संपादन मॉडल का व्यापक मूल्यांकन करने में मदद मिलती है। Chart$\text{M}^3$ के माध्यम से, यह पत्र वर्तमान बहुविध बड़े-स्तरीय भाषा मॉडल (MLLM) की सीमाओं को प्रदर्शित करता है इन सीमाओं को दूर करने के लिए, हमने Chart$\text{M}^3$-Train का निर्माण किया है, जो 24,000 मल्टीमॉडल चार्ट संपादन नमूनों से युक्त एक बड़े पैमाने का प्रशिक्षण डेटासेट है। इस डेटासेट पर MLLM को फाइन-ट्यूनिंग करने से प्रदर्शन में उल्लेखनीय सुधार होता है, जो मल्टीमॉडल सुपरवाइज्ड लर्निंग के महत्व को दर्शाता है। डेटासेट, कोड और मूल्यांकन उपकरण GitHub पर उपलब्ध हैं।