Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Vers une mémoire continue générale pour les modèles vision-langage

Created by
  • Haebom

Auteur

Wenyi Wu, Zixuan Song, Kun Zhou, Yifei Shao, Zhiting Hu, Biwei Huang

Contour

Dans cet article, nous proposons un système de mémoire externe fournissant efficacement des connaissances multimodales et multilingues du monde réel. Cette approche permet de pallier les limitations des modèles de langage (ML) et des modèles de langage visuel (MLV) existants, qui peinent à réaliser des tâches d'inférence complexes. Alors que les approches existantes concaténent des images et des jetons de texte en longues séquences, nous utilisons ici la mémoire continue, un ensemble compact d'intégrations denses, pour représenter les connaissances multimodales et multilingues de manière plus efficace. L'idée clé est que le MLV lui-même puisse agir comme un encodeur de mémoire continue. Cela améliore les performances des tâches d'inférence multimodale complexes. Nous présentons une méthode efficace en termes de données et de paramètres pour affiner le MLV en tant qu'encodeur de mémoire, en utilisant seulement 1,2 % des paramètres du modèle et 15,6 000 échantillons auto-synthétisés. La méthode proposée, appelée CoMEM, encode des connaissances multimodales et multilingues arbitraires en seulement huit intégrations continues, et le MLV reste fixe pendant l'inférence, ce qui permet une intégration flexible et prête à l'emploi. Nous démontrons l’efficacité de notre approche à travers des expériences approfondies sur huit benchmarks d’inférence multimodale.

Takeaways, Limitations

Takeaways:
Amélioration des performances des tâches d'inférence multimodales complexes grâce à un système de mémoire séquentielle qui utilise efficacement VLM.
Nous présentons une méthode de réglage fin efficace en termes de données et de paramètres.
Intégration flexible avec des modules plug-and-play.
Efficacité prouvée sur divers benchmarks d’inférence multimodale.
Limitations:
Une validation supplémentaire est nécessaire sur les performances de généralisation des méthodes de réglage fin s'appuyant sur nos propres données synthétiques.
Des recherches supplémentaires sont nécessaires pour déterminer si la taille de la mémoire continue (8 plongements) est suffisante pour toutes sortes de tâches d’inférence complexes.
Il peut y avoir une dépendance à une architecture VLM spécifique.
👍