[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

वीडियोआईटीजी: निर्देशित टेम्पोरल ग्राउंडिंग के साथ मल्टीमॉडल वीडियो समझ

Created by
  • Haebom

लेखक

शिहाओ वांग, गुओ चेन, डी-एन हुआंग, झिक्की ली, मिंगहान ली, गुइलिन ली, जोस एम. अल्वारेज़, लेई झांग, ज़िडिंग यू

रूपरेखा

इस शोधपत्र में, हम वीडियो के लिए निर्देशित टेम्पोरल ग्राउंडिंग (VideoITG) का प्रस्ताव रखते हैं, जो वीडियो-एलएलएम के प्रदर्शन को बेहतर बनाने के लिए उपयोगकर्ता के निर्देशों द्वारा निर्देशित फ़्रेमों के चयन की एक नवीन विधि है। VideoITG, VidThinker, एक स्वचालित एनोटेशन ढाँचे पर केंद्रित है। इसमें तीन चरण शामिल हैं: उपयोगकर्ता के निर्देशों द्वारा निर्देशित विस्तृत क्लिप-स्तरीय कैप्शन तैयार करना, निर्देश-आधारित अनुमान के माध्यम से प्रासंगिक वीडियो खंडों को पुनः प्राप्त करना, और समृद्ध दृश्य साक्ष्य की सटीक पहचान के लिए सूक्ष्म फ़्रेम चयन। VidThinker का उपयोग करते हुए, हम 40,000 वीडियो और 500,000 एनोटेशन वाले VideoITG-40K डेटासेट का निर्माण करते हैं, और एक प्लग-एंड-प्ले VideoITG मॉडल डिज़ाइन करते हैं जो वीडियो-एलएलएम की दृश्य-भाषा संरेखण और अनुमान क्षमताओं का लाभ उठाता है। प्रायोगिक परिणाम विभिन्न मल्टीमॉडल वीडियो समझ मानकों पर लगातार प्रदर्शन में सुधार दर्शाते हैं, जो वीडियो समझ के लिए इसकी श्रेष्ठता और क्षमता को दर्शाता है।

Takeaways, Limitations

Takeaways:
हम उपयोगकर्ता के निर्देशों के आधार पर फ्रेम चयन का उपयोग करके वीडियो-एलएलएम के प्रदर्शन को बेहतर बनाने के लिए एक नवीन विधि प्रस्तुत करते हैं।
स्वचालित एनोटेशन फ्रेमवर्क VidThinker के माध्यम से कुशल डेटासेट बनाने की संभावना प्रस्तुत करना।
प्लग-एंड-प्ले वीडियोआईटीजी मॉडल विभिन्न प्रकार के वीडियो-एलएलएम पर लागू होते हैं।
हम विभिन्न प्रकार के मल्टीमॉडल वीडियो समझ बेंचमार्क पर प्रदर्शन सुधार प्रदर्शित करते हैं।
VideoITG-40K डेटासेट भविष्य के अनुसंधान के लिए एक मूल्यवान संसाधन प्रदान करता है।
Limitations:
VidThinker की स्वचालित एनोटेशन सटीकता और सामान्यीकरण प्रदर्शन के आगे सत्यापन की आवश्यकता है।
कुछ प्रकार के वीडियो या निर्देशों के प्रदर्शन में गिरावट संभव है।
लंबी अवधि के वीडियो की दक्षता और मापनीयता पर और अधिक शोध की आवश्यकता है।
विविध भाषायी और सांस्कृतिक पृष्ठभूमियों में सामान्यीकरण प्रदर्शन का मूल्यांकन करने की आवश्यकता है।
👍