यह पेपर टोकन-आधारित वीडियो प्रतिनिधित्व पर चर्चा करता है, जो वीडियो सामग्री की व्याख्या करने के लिए बड़े पैमाने पर भाषा मॉडल (LLM) को सक्षम करने के लिए एक आशाजनक दृष्टिकोण है। मौजूदा टोकन रिडक्शन तकनीकें (जैसे, छंटाई और विलय) आवश्यक स्थितिगत एम्बेडिंग में हस्तक्षेप करती हैं और समान स्थानिक-अस्थायी स्थितियों वाले आसन्न पिक्सेल से सैंपल किए गए निरंतर दृश्य टोकन पर निर्भर करती हैं। इस पेपर में, हम एक नई चुनौती, एक्सट्रीम शॉर्ट टोकन रिडक्शन प्रस्तुत करते हैं, जिसका उद्देश्य असतत टोकन के न्यूनतम सेट का उपयोग करके एक संपूर्ण वीडियो का प्रतिनिधित्व करना है। इस उद्देश्य के लिए, हम VQToken नामक एक न्यूरल नेटवर्क-आधारित असतत टोकन प्रतिनिधित्व फ्रेमवर्क का प्रस्ताव करते हैं, जो निरंतर ViT एम्बेडिंग पर अनुकूली वेक्टर क्वांटिज़ेशन लागू करके एक कॉम्पैक्ट कोडबुक सीखता है और टोकन हैश फ़ंक्शन के माध्यम से स्थानिक-अस्थायी स्थितियों को संरक्षित करता है। VQToken NextQA-MC बेंचमार्क पर 0.66% की सटीकता गिरावट को बनाए रखते हुए अनुक्रमों को उनकी मूल लंबाई के 0.07% तक संपीड़ित करता है। यह एक्टनेट-क्यूए, लॉन्ग वीडियो बेंचमार्क और वीडियोएमएमई पर भी तुलनीय प्रदर्शन प्राप्त करता है। टोकन सूचना घनत्व (टोकडेंस) मीट्रिक को पेश करके और निश्चित-लंबाई और अनुकूली-लंबाई उप-कार्यों को तैयार करके, हम दोनों सेटिंग्स में अत्याधुनिक परिणाम प्राप्त करते हैं। यह दृष्टिकोण सैद्धांतिक जटिलता को नाटकीय रूप से कम करता है, सूचना घनत्व को बढ़ाता है, टोकन की संख्या को काफी कम करता है, और संसाधन-विवश वातावरण में कुशल वीडियो एलएलएम को सक्षम बनाता है।