Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Apprentissage de la représentation de jetons discrets neuronaux pour une réduction extrême des jetons dans les modèles de langage vidéo volumineux

Created by
  • Haebom

Auteur

Haichao Zhang, Yun Fu

Contour

Cet article aborde la représentation vidéo par jetons, une approche prometteuse pour permettre aux modèles de langage à grande échelle (LLM) d'interpréter le contenu vidéo. Les techniques existantes de réduction de jetons (par exemple, l'élagage et la fusion) ont tendance à interférer avec les représentations continues positionnelles essentielles et reposent sur des jetons visuels continus échantillonnés à partir de pixels adjacents ayant des positions spatio-temporelles similaires. Dans cet article, nous présentons un nouveau défi, la réduction de jetons extrêmement courts, qui vise à représenter une vidéo complète à l'aide d'un ensemble minimal de jetons discrets. À cette fin, nous proposons un cadre de représentation de jetons discrets basé sur un réseau neuronal appelé VQToken. Ce cadre apprend un codebook compact en appliquant une quantification vectorielle adaptative aux représentations continues ViT et préserve les positions spatio-temporelles via une fonction de hachage de jetons. VQToken compresse les séquences à 0,07 % de leur longueur d'origine tout en maintenant une dégradation de précision de 0,66 % sur le benchmark NextQA-MC. Il atteint également des performances comparables sur ActNet-QA, Long Video Benchmark et VideoMME. En introduisant la métrique TokDense (Token Information Density) et en formulant des sous-tâches à longueur fixe et adaptative, nous obtenons des résultats de pointe dans les deux contextes. Cette approche réduit considérablement la complexité théorique, augmente la densité d'information, diminue significativement le nombre de jetons et permet un LLM vidéo efficace dans des environnements aux ressources limitées.

Takeaways, Limitations_

Takeaways:
Nous améliorons considérablement l'efficacité du LLM vidéo en introduisant un nouveau défi de réduction de jetons extrêmement courts et en proposant le framework VQToken.
Nous obtenons un taux de compression vidéo (0,07 %) bien supérieur aux méthodes existantes tout en minimisant la dégradation des performances.
Nous introduisons la métrique Token Information Density (TokDense) pour fournir un nouveau critère d'évaluation quantitative de l'efficacité de la représentation des jetons vidéo.
Nous présentons la possibilité de mettre en œuvre un LLM vidéo efficace dans des environnements à ressources limitées.
Limitations:
Les performances de la méthode proposée peuvent être limitées à certains jeux de données de référence. Des expériences supplémentaires sur différents types de jeux de données vidéo sont nécessaires.
Une analyse plus approfondie est nécessaire sur l'impact de la taille du livre de codes de VQToken et de la conception de la fonction de hachage du jeton sur les performances.
Une réduction extrême des jetons peut entraîner une perte d’informations, ce qui nécessite une analyse quantitative et une recherche sur les mesures d’amélioration.
👍