यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
इस पत्र में, हम ग्राउंडेड-वीडियोएलएलएम, एक नवीन वीडियो-एलएलएम प्रस्तावित करते हैं जो विशिष्ट वीडियो क्षणों को सूक्ष्म स्तर पर पहचानता और अनुमान लगाता है ताकि मौजूदा वीडियो लार्ज लैंग्वेज मॉडल्स (वीडियो-एलएलएम) की सीमाओं का समाधान किया जा सके, जो सूक्ष्म-कणीय लौकिक जानकारी को समझने में कठिनाई महसूस करते हैं। ग्राउंडेड-वीडियोएलएलएम, अतिरिक्त लौकिक धाराओं को प्रस्तुत करके लौकिक मॉडलिंग और टाइमस्टैम्प निरूपण में मौजूदा मॉडलों की कमियों को दूर करता है जो अंतर-फ्रेम संबंधों और विशिष्ट लौकिक जानकारी से समृद्ध असतत लौकिक टोकनों को एनकोड करते हैं। हम एक बहु-चरणीय शिक्षण दृष्टिकोण का उपयोग करके मॉडल को प्रशिक्षित करते हैं और एक स्वचालित एनोटेशन पाइपलाइन के माध्यम से निर्मित ग्राउंडेड वीडियोक्यूए डेटासेट का लाभ उठाकर इसकी लौकिक अनुमान क्षमता को बढ़ाते हैं।
Takeaways, Limitations
•
Takeaways:
◦
हम एक नवीन आर्किटेक्चर प्रस्तुत करते हैं जो मौजूदा वीडियो-एलएलएम में टेम्पोरल मॉडलिंग और टाइमस्टैम्प प्रतिनिधित्व की सीमाओं पर काबू पाता है।
◦
सूक्ष्म-कण वाले अस्थायी-आधारित असाइनमेंट कार्यों जैसे कि अस्थायी वाक्य-आधारित असाइनमेंट, सघन वीडियो कैप्शन निर्माण, और ग्राउंडेड वीडियोक्यूए पर बेहतर प्रदर्शन प्राप्त करें।
◦
यह एक बहुमुखी वीडियो सहायक की क्षमता प्रस्तुत करता है जिसका उपयोग विभिन्न वीडियो समझने के कार्यों के लिए किया जा सकता है।
◦
हम स्वचालित एनोटेशन पाइपलाइन का उपयोग करके डेटासेट बनाने के लिए एक कुशल विधि प्रस्तुत करते हैं।
•
Limitations:
◦
प्रस्तावित मॉडल के प्रदर्शन सुधार में योगदान देने वाले कारकों के सापेक्ष महत्व के विश्लेषण का अभाव हो सकता है।
◦
विभिन्न प्रकार के वीडियो डेटा पर सामान्यीकरण प्रदर्शन के आगे सत्यापन की आवश्यकता है।
◦
स्वचालित एनोटेशन पाइपलाइन की सटीकता और विश्वसनीयता का मूल्यांकन करने की आवश्यकता है।
◦
बड़े वास्तविक-विश्व डेटासेट पर प्रायोगिक परिणामों का अभाव हो सकता है।