DEEVISum एक हल्का, कुशल और स्केलेबल विज़न लैंग्वेज मॉडल है जिसे वीडियो सेगमेंट-वार सारांशीकरण के लिए डिज़ाइन किया गया है। यह मल्टीमॉडल प्रॉम्प्ट का लाभ उठाता है जो टेक्स्ट और ऑडियो-आधारित संकेतों को संयोजित करते हैं और प्रदर्शन और दक्षता को संतुलित करने के लिए मल्टी-स्टेज नॉलेज डिस्टिलेशन (MSKD) और अर्ली टर्मिनेशन (EE) को एकीकृत करते हैं। MSKD बेसलाइन डिस्टिलेशन की तुलना में 1.33% का पूर्ण F1 सुधार प्रदान करता है, जबकि EE, F1 स्कोर में 1.3 अंकों की कमी की कीमत पर अनुमान समय को लगभग 21% कम करता है। TVSum डेटासेट पर मूल्यांकन करने पर, सर्वश्रेष्ठ प्रदर्शन करने वाले मॉडल, PaLI Gemma2 3B + MSKD ने 61.1 का F1 स्कोर प्राप्त किया, जिससे यह कम कम्प्यूटेशनल लागत बनाए रखते हुए बहुत बड़े मॉडलों के साथ प्रतिस्पर्धी बन गया। कोड और संसाधित डेटासेट आगे के शोध में सहायता के लिए उपलब्ध कराया गया है।