दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

MESH -- मनुष्यों की तरह वीडियो को समझना: बड़े वीडियो मॉडल में मतिभ्रम को मापना

Created by
  • Haebom

लेखक

गैरी यांग, ज़िज़े चेन, मैन होन वोंग, हाओयू लेई, योंगकियांग चेन, झेंगुओ ली, काइवेन झोउ, जेम्स चेंग

रूपरेखा

यह शोधपत्र MESH का प्रस्ताव करता है, जो बड़े पैमाने के वीडियो मॉडल (LVM) में मतिभ्रम के व्यवस्थित मूल्यांकन के लिए एक नया मानक है। मौजूदा मानकों (Limitations) के मैन्युअल वर्गीकरण दृष्टिकोण से आगे बढ़ते हुए, MESH बुनियादी वस्तुओं, विस्तृत विशेषताओं और विषय-क्रिया युग्मों का आकलन करने के लिए प्रश्न-उत्तर पद्धति का उपयोग करता है, जो मानव वीडियो समझने की प्रक्रिया का अनुकरण करता है। MESH, LVM में मतिभ्रम की प्रभावी पहचान पर केंद्रित है, जिसमें द्विआधारी और बहुविकल्पीय प्रश्न और लक्ष्य एवं ट्रैप उदाहरण शामिल हैं। प्रायोगिक परिणाम दर्शाते हैं कि जहाँ LVM बुनियादी वस्तु और विशेषता पहचान में उत्कृष्ट हैं, वहीं कई विषयों वाले लंबे समय तक चलने वाले वीडियो में विस्तृत जानकारी या कई क्रियाओं को संसाधित करते समय उनकी मतिभ्रम दर उल्लेखनीय रूप से बढ़ जाती है।

Takeaways, Limitations

Takeaways:
हमने वीडियो मतिभ्रम मूल्यांकन की सीमाओं को दूर किया है जो मौजूदा मैनुअल वर्गीकरण विधियों पर निर्भर करता है और मानव वीडियो समझ प्रक्रिया के आधार पर एक नया मूल्यांकन बेंचमार्क, MESH प्रस्तुत किया है।
MESH व्यवस्थित और प्रभावी ढंग से LVMs की मतिभ्रम समस्याओं का मूल्यांकन कर सकता है और सुधार के लिए दिशा-निर्देश सुझा सकता है।
एल.वी.एम. में मतिभ्रम के कारणों और पैटर्न का विश्लेषण करके ऐसी अंतर्दृष्टि प्रदान करना जो प्रदर्शन सुधार में योगदान दे सके।
यह मूल वस्तु और विशेषता पहचान तथा जटिल अनुक्रम समझ के बीच प्रदर्शन अंतर को स्पष्ट रूप से प्रदर्शित करता है।
Limitations:
MESH बेंचमार्क के डिजाइन और विन्यास का अतिरिक्त वस्तुनिष्ठ सत्यापन आवश्यक है।
वर्तमान मूल्यांकन विशिष्ट LVM तक सीमित हो सकता है, तथा विभिन्न मॉडलों के लिए सामान्यीकरण का सत्यापन आवश्यक है।
ऐसी संभावना है कि यह मानव वीडियो समझने की प्रक्रिया को पूरी तरह से प्रतिबिंबित न कर पाए।
वीडियो की जटिलता और लंबाई के साथ मतिभ्रम की घटना किस प्रकार बदलती है, इसका और अधिक गहन विश्लेषण आवश्यक है।
👍