दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

स्ट्रीममेम: स्ट्रीमिंग वीडियो समझ के लिए क्वेरी-अज्ञेय KV कैश मेमोरी

Created by
  • Haebom

लेखक

यानलाई यांग, ज़ुओकाई झाओ, सत्य नारायण शुक्ला, आशु सिंह, श्लोक कुमार मिश्रा, लिज़ु झांग, मेंग्ये रेन

रूपरेखा

यह शोधपत्र दीर्घ-प्रारूप वीडियो समझ के कुशल प्रसंस्करण हेतु बहुविधीय वृहद-स्तरीय भाषा मॉडल (MLLM) की दीर्घकालिक वीडियो प्रसंस्करण क्षमताओं की सीमाओं पर विचार करता है। मौजूदा दीर्घ-प्रारूप संदर्भ MLLM, दीर्घ-प्रारूप दृश्य संदर्भ के लिए कुंजी-मान (KV) कैश को संग्रहीत और संदर्भित करने में महत्वपूर्ण मेमोरी और कम्प्यूटेशनल ओवरहेड से ग्रस्त हैं। मौजूदा दृश्य संपीड़न विधियों में संपीड़न से पहले संपूर्ण दृश्य संदर्भ को एन्कोड करना या प्रश्नों को पूर्व-पहुँचाना आवश्यक होता है, जिससे वे अव्यावहारिक हो जाते हैं। इस समस्या के समाधान के लिए, हम StreamMem का प्रस्ताव करते हैं, जो एक क्वेरी-अज्ञेय KV कैश मेमोरी तंत्र है जो नए वीडियो फ़्रेमों को स्ट्रीमिंग तरीके से एन्कोड करता है और दृश्य टोकन और सामान्य प्रश्न टोकन के बीच ध्यान स्कोर का उपयोग करके KV कैश को संपीड़ित करता है, जबकि मेमोरी-बाधित दीर्घ-प्रारूप वीडियो परिदृश्यों में कुशल प्रश्नोत्तर (QA) को सक्षम करने के लिए एक निश्चित आकार की KV मेमोरी बनाए रखता है। तीन दीर्घ-प्रारूप वीडियो समझ बेंचमार्क और दो स्ट्रीमिंग वीडियो प्रश्न उत्तर बेंचमार्क पर मूल्यांकन परिणाम दर्शाते हैं कि स्ट्रीममेम क्वेरी-अज्ञेय केवी कैश संपीड़न में अत्याधुनिक प्रदर्शन प्राप्त करता है और क्वेरी-जागरूक संपीड़न विधियों के साथ प्रतिस्पर्धी है।

Takeaways, Limitations

Takeaways:
हम एक क्वेरी-अज्ञेय KV कैश संपीड़न तंत्र के माध्यम से मेमोरी-बाधित लंबे वीडियो समझने की समस्या का एक कुशल समाधान प्रस्तुत करते हैं।
स्ट्रीमिंग वीडियो प्रसंस्करण के माध्यम से वास्तविक समय या निकट-वास्तविक समय के दीर्घ-प्रारूप वीडियो समझ अनुप्रयोगों को लागू करने की संभावना प्रस्तुत करना।
यह क्वेरी-अवेयर विधियों की तुलना में प्रतिस्पर्धी प्रदर्शन दर्शाता है।
दीर्घ-प्रारूप वीडियो QA और स्ट्रीमिंग वीडियो QA बेंचमार्क में अत्याधुनिक प्रदर्शन प्राप्त करना।
Limitations:
प्रस्तावित स्ट्रीममेम का प्रदर्शन एक विशिष्ट बेंचमार्क तक सीमित है, और अन्य प्रकार के लंबे वीडियो डेटासेट पर इसके सामान्यीकरण प्रदर्शन के लिए और अधिक शोध की आवश्यकता है।
संपीड़न प्रक्रिया के दौरान सूचना हानि की संभावना है, तथा हानि की सीमा और प्रभाव पर आगे विश्लेषण की आवश्यकता है।
सामान्य क्वेरी टोकन के डिज़ाइन और चयन के लिए विस्तृत स्पष्टीकरण का अभाव। इष्टतम क्वेरी टोकन डिज़ाइन निर्धारित करने के लिए और अधिक शोध की आवश्यकता है।
👍