दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

(भाषा) अंतर पर ध्यान दें: LVLMs की संख्यात्मक और अंतर-भाषाई सीमाओं की जांच की दिशा में

Created by
  • Haebom

लेखक

सोमराज गौतम, अभिराम सुब्रमण्यम पेनामाकुरी, अभिषेक भंडारी, गौरव हरित

रूपरेखा

MMCRICBENCH-3K क्रिकेट स्कोरकार्ड के लिए एक दृश्य प्रश्नोत्तर (VQA) बेंचमार्क है, जिसे अर्ध-संरचित सारणीबद्ध चित्रों पर जटिल संख्यात्मक और अंतर-भाषिक तर्क क्षमताओं का मूल्यांकन करने के लिए डिज़ाइन किया गया है। इसमें ODI, T20 और टेस्ट प्रारूपों में 1,463 सिंथेटिक स्कोरकार्ड चित्र और 1,500 अंग्रेजी QA जोड़े शामिल हैं। इसे दो उपसमूहों में विभाजित किया गया है: MMCRICBENCH-E-1.5K, जिसमें अंग्रेजी स्कोरकार्ड हैं, और MMCRICBENCH-H-1.5K, जिसमें समान हिंदी स्कोरकार्ड हैं। सभी प्रश्न और उत्तर अंग्रेजी में रखे गए हैं, जिससे नियंत्रित क्रॉस-स्क्रिप्ट मूल्यांकन संभव है। इस कार्य के लिए संरचित संख्यात्मक डेटा, बहु-चित्र संदर्भ और अंतर्निहित डोमेन ज्ञान पर तर्क की आवश्यकता होती है। प्रायोगिक परिणाम बताते हैं कि GPT-4o और Qwen2.5VL जैसे अत्याधुनिक LVLM भी अंग्रेजी उपसमूह पर संघर्ष करते हैं और हिंदी उपसमूह पर तो और भी खराब प्रदर्शन करते हैं। यह संरचना-सजग दृश्य पाठ समझ, संख्यात्मक तर्क और अंतर-भाषाई सामान्यीकरण की प्रमुख सीमाओं को उजागर करता है। डेटासेट हगिंग फेस ( https://huggingface.co/datasets/DIALab/MMCricBench) के माध्यम से सार्वजनिक रूप से उपलब्ध है ।

Takeaways, Limitations

Takeaways: हम MMCRICBENCH-3K प्रस्तुत करते हैं, जो अर्ध-संरचित सारणीबद्ध चित्रों पर संख्यात्मक और बहु-भाषा तर्क के मूल्यांकन हेतु एक नया मानक है। हम संरचना-सजग दृश्य पाठ समझ, संख्यात्मक तर्क और बहु-भाषा सामान्यीकरण में अत्याधुनिक LVLM की सीमाओं को उजागर करते हैं। यह सार्वजनिक रूप से उपलब्ध डेटासेट संबंधित शोध को सुगम बनाता है।
Limitations: यह डेटासेट सिंथेटिक डेटा पर आधारित है। यह वर्तमान में केवल दो भाषाओं का समर्थन करता है: अंग्रेज़ी और हिंदी। यह क्रिकेट स्कोरकार्ड के विशिष्ट क्षेत्र तक ही सीमित है, और इसकी व्यापकता निर्धारित करने के लिए और शोध की आवश्यकता है।
👍