दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

ChartM$^3$: मल्टीमॉडल निर्देशों के साथ बेंचमार्किंग चार्ट संपादन

Created by
  • Haebom

लेखक

डोंगलू यांग, लियांग झांग, जिहाओ यू, लियांगयु चेन, यिचेन जू, वेनक्सुआन वांग, किन जिन

रूपरेखा

यह पत्र एक बहुविध चार्ट संपादन प्रतिमान प्रस्तुत करता है जो प्राकृतिक भाषा और दृश्य संकेतकों को जोड़ता है। मौजूदा प्राकृतिक भाषा-आधारित चार्ट संपादन विधियों की अस्पष्टता को दूर करने के लिए, हम एक ऐसी विधि प्रस्तावित करते हैं जो उपयोगकर्ता के इरादे को प्राकृतिक भाषा और दृश्य संकेतकों में व्यक्त करती है जो संपादित किए जाने वाले तत्वों को स्पष्ट रूप से हाइलाइट करते हैं। इसके समर्थन में, हम Chart$\text{M}^3$ प्रस्तुत करते हैं, जो बहु-स्तरीय जटिलता और बहुआयामी मूल्यांकन वाला एक नया बहुविध चार्ट संपादन बेंचमार्क है। Chart$\text{M}^3$ में संपादन कठिनाई के चार स्तरों वाले 1,000 नमूने शामिल हैं, जिनमें से प्रत्येक तीन तत्वों से बना है: चार्ट, कोड और बहुविध संकेतक। हम ऐसे मेट्रिक्स प्रदान करते हैं जो दृश्य उपस्थिति और कोड शुद्धता दोनों का आकलन करते हैं, जिससे हमें चार्ट संपादन मॉडल का व्यापक मूल्यांकन करने में मदद मिलती है। Chart$\text{M}^3$ के माध्यम से, यह पत्र वर्तमान बहुविध बड़े-स्तरीय भाषा मॉडल (MLLM) की सीमाओं को प्रदर्शित करता है इन सीमाओं को दूर करने के लिए, हमने Chart$\text{M}^3$-Train का निर्माण किया है, जो 24,000 मल्टीमॉडल चार्ट संपादन नमूनों से युक्त एक बड़े पैमाने का प्रशिक्षण डेटासेट है। इस डेटासेट पर MLLM को फाइन-ट्यूनिंग करने से प्रदर्शन में उल्लेखनीय सुधार होता है, जो मल्टीमॉडल सुपरवाइज्ड लर्निंग के महत्व को दर्शाता है। डेटासेट, कोड और मूल्यांकन उपकरण GitHub पर उपलब्ध हैं।

Takeaways, Limitations

Takeaways:
बहु-मोडल इनपुट का उपयोग करके चार्ट संपादन के लिए एक नया प्रतिमान प्रस्तुत किया जा रहा है।
बहुस्तरीय जटिलता और बहुआयामी मूल्यांकन को ध्यान में रखते हुए एक नया बेंचमार्क, Chart$\text{M}^3$ प्रदान किया गया है।
दृश्य संकेतकों की व्याख्या और अनुप्रयोग करने की मौजूदा एमएलएलएम की क्षमता की सीमाओं का खुलासा।
बड़े पैमाने पर मल्टीमॉडल लर्निंग डेटासेट चार्ट$\Text{M}^3$-ट्रेन के साथ एमएलएलएम प्रदर्शन में सुधार।
चार्ट संपादन प्रणालियों के विकास में बहुविध पर्यवेक्षित शिक्षण के महत्व पर जोर दें।
Limitations:
चार्ट$\Text{M}^3$ बेंचमार्क में नमूनों की संख्या (1,000) अपेक्षाकृत कम हो सकती है।
विभिन्न प्रकार के चार्ट और संपादन कार्यों में सामान्यीकरण प्रदर्शन पर आगे अनुसंधान की आवश्यकता है।
वर्तमान एमएलएलएम की सीमाओं को दूर करने के लिए और अधिक शोध की आवश्यकता है (उदाहरण के लिए, अधिक परिष्कृत दृश्य समझ मॉडल विकसित करना)।
👍