Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

MobileCLIP2 : Améliorer la formation renforcée multimodale

Created by
  • Haebom

Auteur

Fartash Faghri, Pavan Kumar Anasosalu Vasu, Cem Koc, Vaishaal Shankar, Alexander Toshev, Oncel Tuzel, Hadi Pouransari

Contour

MobileCLIP est un modèle image-texte qui atteint une précision de pointe (zero-shot) avec une faible latence de 3 à 15 ms et des paramètres compris entre 50 et 150 millions. Dans cet article, nous présentons MobileCLIP2, une version améliorée de l'apprentissage par renforcement multimodal. Ces améliorations incluent un ensemble d'enseignants CLIP amélioré, entraîné sur le jeu de données DFN, et un enseignant générateur de légendes amélioré, optimisé sur divers jeux de données image-légende de haute qualité. Nous démontrons expérimentalement l'importance du réglage de la température dans la distillation contrastive des connaissances, l'efficacité du réglage fin du générateur de légendes pour la diversité des légendes, et d'autres améliorations dans la combinaison de légendes synthétiques générées par plusieurs modèles. Ainsi, MobileCLIP2 atteint une précision de pointe (zero-shot) sur ImageNet-1k, et MobileCLIP2-B obtient une précision améliorée de 2,2 % par rapport à MobileCLIP-B. Le MobileCLIP2-S4 atteint la même précision zéro-shot que le SigLIP-SO400M/14, mais est deux fois plus compact et offre une latence 2,5 fois inférieure à celle du DFN ViT-L/14. Le modèle entraîné et le code de génération de données sont accessibles au public.

Takeaways, Limitations

Takeaways:
Nous présentons le modèle MobileCLIP2, qui améliore l'apprentissage par renforcement multimodal et surpasse MobileCLIP.
Atteindre une précision de pointe en matière de tir zéro sur ImageNet-1k.
Performances améliorées tout en maintenant une faible latence et une petite taille de modèle.
Vérification expérimentale de l'efficacité du réglage de la température, du réglage fin du générateur de sous-titres et du sous-titrage synthétique multi-modèles.
Publication de modèles formés et de code de génération de données pour une recherche reproductible.
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer si les améliorations présentées dans cet article peuvent être appliquées à d’autres modèles image-texte.
L'optimisation des performances d'un jeu de données spécifique est possible. Une évaluation des performances sur d'autres jeux de données est nécessaire.
👍