यह शोधपत्र SpecVLM का प्रस्ताव करता है, जो वीडियो लार्ज-स्केल लैंग्वेज मॉडल्स (Vid-LLMs) की कुशल डिकोडिंग के लिए एक प्रशिक्षण-मुक्त सट्टा डिकोडिंग (SD) ढाँचा है। Vid-LLMs वीडियो सामग्री समझ में शक्तिशाली प्रदर्शन प्रदर्शित करते हैं, लेकिन उनके सघन वीडियो टोकन निरूपण में महत्वपूर्ण मेमोरी और कम्प्यूटेशनल ओवरहेड होता है। SpecVLM सूचना हानि को कम करता है और चरणबद्ध वीडियो टोकन प्रूनिंग के माध्यम से डिकोडिंग गति में सुधार करता है। हमने पाया कि ड्राफ्ट मॉडल का अनुमान वीडियो टोकन प्रूनिंग के प्रति असंवेदनशील है, और 90% तक वीडियो टोकन प्रूनिंग करते समय सटीकता बनाए रखता है। इस प्रक्रिया में दो चरण होते हैं: पहला चरण लक्ष्य मॉडल के ध्यान संकेत के आधार पर सूचना-समृद्ध टोकन का चयन करता है, और दूसरा चरण स्थानिक और समान रूप से अनावश्यक टोकन की प्रूनिंग करता है। प्रायोगिक परिणाम LLaVA-OneVision-72B पर 2.68x तक और Qwen2.5-VL-32B पर 2.11x तक डिकोडिंग गति में सुधार प्रदर्शित करते हैं।