Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

B-VLLM : un modèle de langage Vision Large avec des jetons spatio-temporels équilibrés

Created by
  • Haebom

Auteur

Zhuqiang Lu, Zhenfei Yin, Mengwei He, Zhihui Wang, Zicheng Liu, Zhiyong Wang, Kun Hu

Contour

Afin de relever les défis de la compréhension d'images à long terme à l'aide d'un modèle de langage à grande échelle (VLLM), cet article présente un cadre de VLLM équilibré (B-VLLM) qui utilise un module de sélection de trames adaptative conditionnelle au texte, une technique de fusion de jetons de trames temporelles, un module d'échantillonnage de jetons spatiaux et une stratégie de fusion. Pour résoudre les problèmes rencontrés par les VLLM existants, tels que la perte d'informations temporelles ou spatiales due au sous-échantillonnage de l'image ou à la réduction du nombre de jetons visuels dans chaque trame, nous proposons une méthode qui exploite efficacement les indices spatio-temporels pertinents pour la tâche tout en limitant le nombre de jetons visuels dans la fenêtre contextuelle du VLLM. Les résultats expérimentaux démontrent que le B-VLLM affiche des performances supérieures sur divers tests de compréhension d'images.

Takeaways, Limitations

Takeaways:
Nous avons considérablement amélioré l’efficacité de la compréhension d’images à long terme basée sur VLLM.
Nous avons minimisé la perte d'informations pertinentes pour la tâche grâce à des stratégies de sélection de trame adaptative conditionnelle au texte et de fusion de jetons.
Il atteint des performances supérieures aux méthodes existantes sur divers tests de compréhension d'images.
La reproductibilité a été améliorée grâce au code open source.
Limitations:
Une analyse détaillée de la complexité informatique de la méthode proposée fait défaut.
Il existe un risque de biais de performance pour certains types de données d’image.
Des expériences supplémentaires sur des tâches de compréhension d’images plus diverses et plus complexes sont nécessaires.
👍