यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
यह पत्र वीडियो मोमेंट रिट्रीवल (MR) का अध्ययन करता है, जो प्राकृतिक भाषा प्रश्नों के आधार पर वीडियो में विशिष्ट क्षणों की पहचान करता है। YouTube जैसे प्लेटफार्मों पर सूचना पुनर्प्राप्ति में वृद्धि के साथ, MR तकनीक की मांग भी बढ़ रही है। हालाँकि DETR-आधारित मॉडलों ने हाल ही में प्रदर्शन में सुधार हासिल किया है, वे छोटे क्षणों को सटीक रूप से स्थानीयकृत करने के लिए संघर्ष करते हैं। इस पत्र में, हम छोटे क्षणों में सुविधा विविधता की कमी का विश्लेषण करते हैं और मोमेंटमिक्स का प्रस्ताव करते हैं, जो इस मुद्दे को संबोधित करने के लिए दो डेटा संवर्द्धन रणनीतियों (फोरग्राउंडमिक्स और बैकग्राउंडमिक्स) का उपयोग करता है। इसके अलावा, हम पाते हैं कि छोटे क्षणों के लिए केंद्र स्थान की भविष्यवाणी की सटीकता कम है, और एक लंबाई-जागरूक डिकोडर का प्रस्ताव है जो एक उपन्यास द्विपक्षीय मिलान प्रक्रिया के माध्यम से लंबाई की जानकारी पर विचार करता है। प्रस्तावित विधि QVHighlights डेटासेट पर R1 और mAP दोनों में अत्याधुनिक प्रदर्शन प्राप्त करती है, और TACoS और Charades-STA डेटासेट पर R1@0.7 प्राप्त करती है ।
____T82491_____, ____T82492_____
•
Takeaways:
◦
हम एक नवीन डेटा संवर्द्धन तकनीक (मोमेंटमिक्स) और एक लंबाई-जागरूक डिकोडर प्रस्तुत करते हैं जो लघु वीडियो क्षण पुनर्प्राप्ति की सटीकता में सुधार करने में योगदान देता है।
◦
QVHighlights, TACoS, और Charades-STA डेटासेट पर SOTA प्रदर्शन प्राप्त करना।
◦
हम अल्पकालिक विशेषता विविधता की कमी और केंद्रीय स्थान भविष्यवाणी पूर्वाग्रह की समस्याओं का विश्लेषण करते हैं और समाधान प्रस्तावित करते हैं।
◦
खुले स्रोत कोड प्रकटीकरण के माध्यम से अनुसंधान पुनरुत्पादन और मापनीयता सुनिश्चित करना।
•
Limitations:
◦
प्रस्तावित विधि की प्रभावशीलता एक विशिष्ट बेंचमार्क डेटासेट तक सीमित हो सकती है। विभिन्न डेटासेट पर अतिरिक्त प्रयोगों की आवश्यकता है।
◦
लंबाई-जागरूक डिकोडर की जटिलता बढ़ने के कारण कम्प्यूटेशनल लागत में संभावित वृद्धि।
◦
अधिक विविध और जटिल वीडियो डेटा के लिए सामान्यीकरण प्रदर्शन का मूल्यांकन करने की आवश्यकता है।