दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

BiMa: दृश्य तत्व मार्गदर्शन के माध्यम से पाठ-वीडियो पुनर्प्राप्ति के लिए पूर्वाग्रहों को कम करने की दिशा में

Created by
  • Haebom

लेखक

हुई ले, न्हाट चुंग, तुंग किउ, अन्ह गुयेन, नगन ले

रूपरेखा

इस पत्र में, हम टेक्स्ट-टू-वीडियो रिट्रीवल (TVR) सिस्टम में दृश्य-भाषाई पूर्वाग्रह समस्या को संबोधित करने के लिए एक नया ढाँचा, BiMa प्रस्तावित करते हैं। BiMa वीडियो के दृश्य प्रतिनिधित्व और टेक्स्ट के भाषाई प्रतिनिधित्व दोनों में पूर्वाग्रह को कम करने पर ध्यान केंद्रित करता है। वीडियो के दृश्य शमन के लिए, हम दृश्य तत्वों को उत्पन्न करने के लिए वीडियो में प्रासंगिक वस्तुओं, वस्तुओं और गतिविधियों की पहचान करते हैं और उन्हें वीडियो एम्बेडिंग में एकीकृत करते हैं ताकि बारीक और महत्वपूर्ण विवरणों को उजागर किया जा सके। टेक्स्ट के भाषाई शमन के लिए, हम टेक्स्ट सुविधाओं को सामग्री और पूर्वाग्रह तत्वों में अलग करने के लिए एक तंत्र पेश करते हैं ताकि मॉडल सार्थक सामग्री पर ध्यान केंद्रित कर सके। पाँच प्रमुख TVR बेंचमार्क (MSR-VTT, MSVD, LSMDC, ActivityNet और DiDeMo) पर व्यापक प्रयोगों और पृथक्करण अध्ययनों के माध्यम से, हम BiMa के प्रतिस्पर्धी प्रदर्शन और पूर्वाग्रह शमन क्षमता को सत्यापित करते हैं। विशेष रूप से, हम आउट-ऑफ-डिस्ट्रीब्यूशन रिट्रीवल कार्यों पर मजबूत परिणाम प्रदर्शित करते हैं, जो इसकी पूर्वाग्रह शमन क्षमता को प्रदर्शित करते हैं।

Takeaways, Limitations

Takeaways:
टीवीआर प्रणालियों में दृश्य-भाषाई पूर्वाग्रह समस्या को हल करने के लिए एक प्रभावी ढांचा (BiMa) प्रस्तुत करना
दृश्य और मौखिक दोनों प्रकार के प्रस्तुतीकरणों में पूर्वाग्रह को कम करने के लिए एक नवीन दृष्टिकोण प्रस्तावित किया गया है।
विभिन्न टीवीआर बेंचमार्क पर सत्यापित प्रतिस्पर्धी प्रदर्शन और पूर्वाग्रह शमन क्षमताएं
आउट-ऑफ-डिस्ट्रीब्यूशन खोज कार्यों में उत्कृष्ट प्रदर्शन के माध्यम से व्यावहारिक प्रयोज्यता का प्रदर्शन करना
Limitations:
प्रस्तावित BiMa की कम्प्यूटेशनल लागत और जटिलता के विश्लेषण का अभाव।
विभिन्न प्रकार के पूर्वाग्रहों के लिए सामान्यीकरण प्रदर्शन पर आगे अनुसंधान की आवश्यकता है।
वास्तविक अनुप्रयोग वातावरण में प्रदर्शन मूल्यांकन और आगे का सत्यापन आवश्यक है।
दृश्य तत्व निर्माण की सटीकता और विश्वसनीयता पर आगे विश्लेषण की आवश्यकता है।
👍