दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

अस्थायी रूप से मजबूत क्षण पुनर्प्राप्ति के लिए लंबाई-जागरूक DETR के साथ मोमेंटमिक्स संवर्द्धन

Created by
  • Haebom

लेखक

सियोजॉन्ग पार्क, जिहो चोई, क्यूंगजुन बाक, ह्युनजंग शिम

रूपरेखा

यह पत्र वीडियो मोमेंट रिट्रीवल (MR) का अध्ययन करता है, जो प्राकृतिक भाषा प्रश्नों के आधार पर वीडियो में विशिष्ट क्षणों की पहचान करता है। YouTube जैसे प्लेटफार्मों पर सूचना पुनर्प्राप्ति में वृद्धि के साथ, MR तकनीक की मांग भी बढ़ रही है। हालाँकि DETR-आधारित मॉडलों ने हाल ही में प्रदर्शन में सुधार हासिल किया है, वे छोटे क्षणों को सटीक रूप से स्थानीयकृत करने के लिए संघर्ष करते हैं। इस पत्र में, हम छोटे क्षणों में सुविधा विविधता की कमी का विश्लेषण करते हैं और मोमेंटमिक्स का प्रस्ताव करते हैं, जो इस मुद्दे को संबोधित करने के लिए दो डेटा संवर्द्धन रणनीतियों (फोरग्राउंडमिक्स और बैकग्राउंडमिक्स) का उपयोग करता है। इसके अलावा, हम पाते हैं कि छोटे क्षणों के लिए केंद्र स्थान की भविष्यवाणी की सटीकता कम है, और एक लंबाई-जागरूक डिकोडर का प्रस्ताव है जो एक उपन्यास द्विपक्षीय मिलान प्रक्रिया के माध्यम से लंबाई की जानकारी पर विचार करता है। प्रस्तावित विधि QVHighlights डेटासेट पर R1 और mAP दोनों में अत्याधुनिक प्रदर्शन प्राप्त करती है, और TACoS और Charades-STA डेटासेट पर R1@0.7 प्राप्त करती है ।

____T82491_____, ____T82492_____

Takeaways:
हम एक नवीन डेटा संवर्द्धन तकनीक (मोमेंटमिक्स) और एक लंबाई-जागरूक डिकोडर प्रस्तुत करते हैं जो लघु वीडियो क्षण पुनर्प्राप्ति की सटीकता में सुधार करने में योगदान देता है।
QVHighlights, TACoS, और Charades-STA डेटासेट पर SOTA प्रदर्शन प्राप्त करना।
हम अल्पकालिक विशेषता विविधता की कमी और केंद्रीय स्थान भविष्यवाणी पूर्वाग्रह की समस्याओं का विश्लेषण करते हैं और समाधान प्रस्तावित करते हैं।
खुले स्रोत कोड प्रकटीकरण के माध्यम से अनुसंधान पुनरुत्पादन और मापनीयता सुनिश्चित करना।
Limitations:
प्रस्तावित विधि की प्रभावशीलता एक विशिष्ट बेंचमार्क डेटासेट तक सीमित हो सकती है। विभिन्न डेटासेट पर अतिरिक्त प्रयोगों की आवश्यकता है।
लंबाई-जागरूक डिकोडर की जटिलता बढ़ने के कारण कम्प्यूटेशनल लागत में संभावित वृद्धि।
अधिक विविध और जटिल वीडियो डेटा के लिए सामान्यीकरण प्रदर्शन का मूल्यांकन करने की आवश्यकता है।
👍