दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

वीडियो सारांशीकरण के लिए वीएलएम में प्रारंभिक निकास और बहु-चरणीय ज्ञान आसवन

Created by
  • Haebom

लेखक

अनस अनवारुल हक खान, उत्कर्ष वर्मा, गणेश रामकृष्णन

रूपरेखा

DEEVISum एक हल्का, कुशल और स्केलेबल विज़न लैंग्वेज मॉडल है जिसे वीडियो सेगमेंट-वार सारांशीकरण के लिए डिज़ाइन किया गया है। यह मल्टीमॉडल प्रॉम्प्ट का लाभ उठाता है जो टेक्स्ट और ऑडियो-आधारित संकेतों को संयोजित करते हैं और प्रदर्शन और दक्षता को संतुलित करने के लिए मल्टी-स्टेज नॉलेज डिस्टिलेशन (MSKD) और अर्ली टर्मिनेशन (EE) को एकीकृत करते हैं। MSKD बेसलाइन डिस्टिलेशन की तुलना में 1.33% का पूर्ण F1 सुधार प्रदान करता है, जबकि EE, F1 स्कोर में 1.3 अंकों की कमी की कीमत पर अनुमान समय को लगभग 21% कम करता है। TVSum डेटासेट पर मूल्यांकन करने पर, सर्वश्रेष्ठ प्रदर्शन करने वाले मॉडल, PaLI Gemma2 3B + MSKD ने 61.1 का F1 स्कोर प्राप्त किया, जिससे यह कम कम्प्यूटेशनल लागत बनाए रखते हुए बहुत बड़े मॉडलों के साथ प्रतिस्पर्धी बन गया। कोड और संसाधित डेटासेट आगे के शोध में सहायता के लिए उपलब्ध कराया गया है।

____T9051_____, ____T9052_____

Takeaways:
हमने हल्के विज़न लैंग्वेज मॉडल के माध्यम से वीडियो सारांशीकरण की दक्षता और मापनीयता में सुधार किया।
हमने एमएसकेडी और ईई तकनीकों के माध्यम से प्रदर्शन और दक्षता के बीच सफलतापूर्वक संतुलन हासिल किया।
हमने कम कम्प्यूटेशनल लागत पर बड़े पैमाने के मॉडल के बराबर प्रदर्शन हासिल किया।
हम अपने कोड और डेटासेट को सार्वजनिक रूप से उपलब्ध कराकर अनुवर्ती अनुसंधान का समर्थन करते हैं।
Limitations:
ईई तकनीक लागू करने से एफ1 स्कोर 1.3 अंक कम हो गया।
चूंकि इसका मूल्यांकन केवल एक TVSum डेटासेट का उपयोग करके किया गया था, इसलिए सामान्यीकरण प्रदर्शन के आगे सत्यापन की आवश्यकता है।
👍