Cet article aborde la représentation vidéo par jetons, une approche prometteuse pour permettre aux modèles de langage à grande échelle (LLM) d'interpréter le contenu vidéo. Les techniques existantes de réduction de jetons (par exemple, l'élagage et la fusion) ont tendance à interférer avec les représentations continues positionnelles essentielles et reposent sur des jetons visuels continus échantillonnés à partir de pixels adjacents ayant des positions spatio-temporelles similaires. Dans cet article, nous présentons un nouveau défi, la réduction de jetons extrêmement courts, qui vise à représenter une vidéo complète à l'aide d'un ensemble minimal de jetons discrets. À cette fin, nous proposons un cadre de représentation de jetons discrets basé sur un réseau neuronal appelé VQToken. Ce cadre apprend un codebook compact en appliquant une quantification vectorielle adaptative aux représentations continues ViT et préserve les positions spatio-temporelles via une fonction de hachage de jetons. VQToken compresse les séquences à 0,07 % de leur longueur d'origine tout en maintenant une dégradation de précision de 0,66 % sur le benchmark NextQA-MC. Il atteint également des performances comparables sur ActNet-QA, Long Video Benchmark et VideoMME. En introduisant la métrique TokDense (Token Information Density) et en formulant des sous-tâches à longueur fixe et adaptative, nous obtenons des résultats de pointe dans les deux contextes. Cette approche réduit considérablement la complexité théorique, augmente la densité d'information, diminue significativement le nombre de jetons et permet un LLM vidéo efficace dans des environnements aux ressources limitées.