दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

SpecVLM: सत्यापनकर्ता-निर्देशित टोकन प्रूनिंग के माध्यम से वीडियो LLMs की सट्टा डिकोडिंग को बढ़ाना

Created by
  • Haebom

लेखक

यिचेंग जी, जून झांग, हेमिंग ज़िया, जिनपेंग चेन, लिडान शॉ, गैंग चेन, हुआन ली

रूपरेखा

यह शोधपत्र SpecVLM का प्रस्ताव करता है, जो वीडियो लार्ज-स्केल लैंग्वेज मॉडल्स (Vid-LLMs) की कुशल डिकोडिंग के लिए एक प्रशिक्षण-मुक्त सट्टा डिकोडिंग (SD) ढाँचा है। Vid-LLMs वीडियो सामग्री समझ में शक्तिशाली प्रदर्शन प्रदर्शित करते हैं, लेकिन उनके सघन वीडियो टोकन निरूपण में महत्वपूर्ण मेमोरी और कम्प्यूटेशनल ओवरहेड होता है। SpecVLM सूचना हानि को कम करता है और चरणबद्ध वीडियो टोकन प्रूनिंग के माध्यम से डिकोडिंग गति में सुधार करता है। हमने पाया कि ड्राफ्ट मॉडल का अनुमान वीडियो टोकन प्रूनिंग के प्रति असंवेदनशील है, और 90% तक वीडियो टोकन प्रूनिंग करते समय सटीकता बनाए रखता है। इस प्रक्रिया में दो चरण होते हैं: पहला चरण लक्ष्य मॉडल के ध्यान संकेत के आधार पर सूचना-समृद्ध टोकन का चयन करता है, और दूसरा चरण स्थानिक और समान रूप से अनावश्यक टोकन की प्रूनिंग करता है। प्रायोगिक परिणाम LLaVA-OneVision-72B पर 2.68x तक और Qwen2.5-VL-32B पर 2.11x तक डिकोडिंग गति में सुधार प्रदर्शित करते हैं।

Takeaways, Limitations

Takeaways:
हम एक कुशल प्रशिक्षण-मुक्त सट्टा डिकोडिंग ढांचा प्रस्तुत करते हैं जो नाटकीय रूप से विद-एलएलएम की डिकोडिंग गति में सुधार करता है।
वीडियो टोकन प्रूनिंग से मेमोरी और कम्प्यूटेशनल संसाधनों की बचत हो सकती है।
यह LLaVA-OneVision-72B और Qwen2.5-VL-32B जैसे बड़े मॉडलों पर भी प्रभावी ढंग से काम करता है।
खुले कोड के माध्यम से पुनरुत्पादनशीलता और प्रयोज्यता में सुधार हुआ है।
Limitations:
प्रस्तावित विधि की प्रभावशीलता विशिष्ट Vid-LLM मॉडल और वीडियो समझ बेंचमार्क तक सीमित हो सकती है।
इष्टतम छंटाई रणनीति मॉडल और डेटासेट के आधार पर भिन्न हो सकती है।
अधिक विविध वीडियो डेटासेट और मॉडल के साथ प्रयोग की आवश्यकता है।
काल्पनिक डिकोडिंग की सटीकता में गिरावट को समझने के लिए आगे के विश्लेषण की आवश्यकता है।
👍