Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SpecVLM : amélioration du décodage spéculatif des LLM vidéo via l'élagage des jetons guidé par un vérificateur

Created by
  • Haebom

Auteur

Yicheng Ji, Jun Zhang, Heming Xia, Jinpeng Chen, Lidan Shou, Gang Chen, Huan Li

Contour

Cet article propose SpecVLM, un framework de décodage spéculatif (SD) sans apprentissage pour un décodage efficace des modèles de langage vidéo à grande échelle (Vid-LLM). Si les Vid-LLM affichent de puissantes performances en compréhension de contenu vidéo, leurs représentations denses de jetons vidéo entraînent une surcharge mémoire et de calcul importante. SpecVLM minimise les pertes d'informations et améliore la vitesse de décodage grâce à un élagage progressif des jetons vidéo. Nous constatons que l'estimation du modèle préliminaire est insensible à l'élagage des jetons vidéo, conservant ainsi sa précision tout en élaguant jusqu'à 90 % des jetons vidéo. Ce processus se déroule en deux étapes : la première étape sélectionne les jetons riches en informations en fonction du signal d'attention du modèle cible, et la seconde étape élague les jetons redondants de manière spatiale et uniforme. Les résultats expérimentaux démontrent des améliorations de la vitesse de décodage allant jusqu'à 2,68 x sur LLaVA-OneVision-72B et jusqu'à 2,11 x sur Qwen2.5-VL-32B.

Takeaways, Limitations_

Takeaways:
Nous présentons un cadre de décodage spéculatif efficace et sans formation qui améliore considérablement la vitesse de décodage des Vid-LLM.
L’élagage des jetons vidéo peut économiser de la mémoire et des ressources de calcul.
Il fonctionne efficacement même sur les grands modèles tels que LLaVA-OneVision-72B et Qwen2.5-VL-32B.
La reproductibilité et la convivialité ont été améliorées grâce au code ouvert.
Limitations:
L’efficacité de la méthode proposée peut être limitée à des modèles Vid-LLM spécifiques et à des repères de compréhension vidéo.
La stratégie d’élagage optimale peut varier en fonction du modèle et de l’ensemble de données.
Des expériences avec des ensembles de données et des modèles vidéo plus diversifiés sont nécessaires.
Une analyse plus approfondie est nécessaire pour comprendre la dégradation de la précision du décodage spéculatif.
👍