Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Compression KV sensible aux tâches pour une compréhension rentable des vidéos longues

Created by
  • Haebom

Auteur

Minghao Qin, Yan Shu, Peitian Zhang, Kun Lun, Huaying Yuan, Juenjie Zhou, Shitao Xiao, Bo Zhao, Zheng Liu

Contour

Dans cet article, nous proposons une nouvelle méthode de compréhension vidéo à long terme (LVU), nommée Video-X²L. Les modèles de langage multimodaux à grande échelle (MLLM) traditionnels souffrent d'une surcharge de calcul excessive lors du traitement de vidéos à long terme. Pour résoudre ces problèmes, Video-X²L utilise deux opérations principales : la compression KV à deux niveaux et le rechargement sélectif des KV. La compression KV à deux niveaux génère des KV à faible compression (L-KV) contenant des informations vidéo détaillées et des KV à haute compression (H-KV) fournissant des représentations vidéo concises. Le rechargement sélectif des KV utilise les L-KV pour les parties vidéo importantes et les H-KV pour les parties moins importantes afin d'exploiter pleinement les informations spécifiques à la tâche sans surcharge de calcul excessive. Il est compatible avec les MLLM compressibles KV existants sans formation supplémentaire et surpasse les méthodes de compression KV existantes sur divers benchmarks LVU tels que VideoMME, MLVU, LongVideoBench et VNBench.

Takeaways, Limitations

Takeaways:
Une solution efficace au problème de compréhension vidéo à longue portée (LVU) est présentée : obtenir une amélioration des performances tout en résolvant efficacement le problème du coût de calcul des méthodes existantes.
Preuve de l'efficacité des techniques de compression KV à double niveau et de rechargement KV sélectif : Vérification expérimentale de la supériorité d'une stratégie qui conserve de manière flexible les informations en fonction des caractéristiques de la tâche.
Compatible avec les modèles existants sans formation supplémentaire : nous présentons une méthode pratique qui peut être facilement appliquée aux MLLM existants.
A démontré des performances supérieures sur une variété de benchmarks : A démontré des performances supérieures et une généralisabilité sur une variété de benchmarks LVU.
Limitations:
Manque d'explication détaillée du rapport et des critères de sélection de L-KV et H-KV : Il peut y avoir un manque d'explication spécifique sur les critères utilisés pour déterminer l'importance et le rapport de L-KV à H-KV.
Dépendance à des MLLM spécifiques : des recherches supplémentaires peuvent être nécessaires pour déterminer la généralisabilité à tous les MLLM.
Manque d'analyse approfondie du compromis entre le taux de compression et les performances : l'augmentation du taux de compression peut entraîner une baisse des performances, mais cela peut ne pas être entièrement analysé en détail.
👍