यह शोधपत्र दीर्घ-प्रारूप वीडियो समझ के कुशल प्रसंस्करण हेतु बहुविधीय वृहद-स्तरीय भाषा मॉडल (MLLM) की दीर्घकालिक वीडियो प्रसंस्करण क्षमताओं की सीमाओं पर विचार करता है। मौजूदा दीर्घ-प्रारूप संदर्भ MLLM, दीर्घ-प्रारूप दृश्य संदर्भ के लिए कुंजी-मान (KV) कैश को संग्रहीत और संदर्भित करने में महत्वपूर्ण मेमोरी और कम्प्यूटेशनल ओवरहेड से ग्रस्त हैं। मौजूदा दृश्य संपीड़न विधियों में संपीड़न से पहले संपूर्ण दृश्य संदर्भ को एन्कोड करना या प्रश्नों को पूर्व-पहुँचाना आवश्यक होता है, जिससे वे अव्यावहारिक हो जाते हैं। इस समस्या के समाधान के लिए, हम StreamMem का प्रस्ताव करते हैं, जो एक क्वेरी-अज्ञेय KV कैश मेमोरी तंत्र है जो नए वीडियो फ़्रेमों को स्ट्रीमिंग तरीके से एन्कोड करता है और दृश्य टोकन और सामान्य प्रश्न टोकन के बीच ध्यान स्कोर का उपयोग करके KV कैश को संपीड़ित करता है, जबकि मेमोरी-बाधित दीर्घ-प्रारूप वीडियो परिदृश्यों में कुशल प्रश्नोत्तर (QA) को सक्षम करने के लिए एक निश्चित आकार की KV मेमोरी बनाए रखता है। तीन दीर्घ-प्रारूप वीडियो समझ बेंचमार्क और दो स्ट्रीमिंग वीडियो प्रश्न उत्तर बेंचमार्क पर मूल्यांकन परिणाम दर्शाते हैं कि स्ट्रीममेम क्वेरी-अज्ञेय केवी कैश संपीड़न में अत्याधुनिक प्रदर्शन प्राप्त करता है और क्वेरी-जागरूक संपीड़न विधियों के साथ प्रतिस्पर्धी है।