दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

आईपीफॉर्मर-वीडियोएलएलएम: मल्टी-शॉट दृश्यों के लिए मल्टी-मोडल वीडियो समझ को बढ़ाना

Created by
  • Haebom

लेखक

युजिया लियांग, जाइल जिआओ, जुएताओ फेंग, ज़िक्सुआन ये, युआन वांग, झिचेंग वांग

रूपरेखा

इस शोधपत्र में, हम एक नया डेटासेट, मल्टीक्लिप-बेंच, प्रस्तुत करते हैं, जिसमें बहु-शॉट परिदृश्यों के लिए अनुकूलित सघन विवरण और निर्देश-आधारित प्रश्न-उत्तर युग्म शामिल हैं, ताकि बहु-शॉट परिदृश्यों (विभिन्न कैमरा कोण या दृश्य परिवर्तन वाली वीडियो क्लिप) में मौजूदा वीडियो लार्ज लैंग्वेज मॉडल (वीडियोएलएलएम) के सामने आने वाली चुनौतियों का समाधान किया जा सके। हम इस समस्या का विश्लेषण करते हैं कि मौजूदा मॉडल वस्तु सूचना को अपूर्ण रूप से एनकोड करते हैं, और एक नया मॉडल, आईपीफॉर्मर-वीडियोएलएलएम, प्रस्तावित करते हैं, जो एक कुशल ध्यान-आधारित संयोजन के माध्यम से वस्तु-स्तरीय विशेषताओं को इंस्टेंस प्रॉम्प्ट के रूप में इंजेक्ट करता है। प्रायोगिक परिणाम दर्शाते हैं कि प्रस्तावित डेटासेट और मॉडल बहु-दृश्य वीडियो समझ में उल्लेखनीय सुधार करते हैं और विभिन्न वीडियो बेंचमार्क पर विशिष्ट लाभ प्रदान करते हैं।

Takeaways, Limitations

Takeaways:
मल्टी-शॉट वीडियो समझने के लिए एक नया डेटासेट, मल्टीक्लिप-बेंच, प्रस्तुत है
ऑब्जेक्ट सूचना हानि की समस्या को हल करने के लिए एक नया मॉडल IPFormer-VideoLLM प्रस्तावित किया गया
बहु-दृश्य वीडियो समझ प्रदर्शन में सुधार हुआ और विभिन्न बेंचमार्क पर बेहतर प्रदर्शन प्रदर्शित हुआ
Limitations:
मल्टीक्लिप-बेंच डेटासेट के आकार और विविधता के संबंध में अतिरिक्त विचार की आवश्यकता है।
आईपीफॉर्मर-वीडियोएलएलएम की कम्प्यूटेशनल लागत और दक्षता का आगे विश्लेषण आवश्यक है।
प्रस्तावित मॉडल के सामान्यीकरण प्रदर्शन पर आगे अनुसंधान की आवश्यकता है।
👍