MobileCLIP est un modèle image-texte qui atteint une précision de pointe (zero-shot) avec une faible latence de 3 à 15 ms et des paramètres compris entre 50 et 150 millions. Dans cet article, nous présentons MobileCLIP2, une version améliorée de l'apprentissage par renforcement multimodal. Ces améliorations incluent un ensemble d'enseignants CLIP amélioré, entraîné sur le jeu de données DFN, et un enseignant générateur de légendes amélioré, optimisé sur divers jeux de données image-légende de haute qualité. Nous démontrons expérimentalement l'importance du réglage de la température dans la distillation contrastive des connaissances, l'efficacité du réglage fin du générateur de légendes pour la diversité des légendes, et d'autres améliorations dans la combinaison de légendes synthétiques générées par plusieurs modèles. Ainsi, MobileCLIP2 atteint une précision de pointe (zero-shot) sur ImageNet-1k, et MobileCLIP2-B obtient une précision améliorée de 2,2 % par rapport à MobileCLIP-B. Le MobileCLIP2-S4 atteint la même précision zéro-shot que le SigLIP-SO400M/14, mais est deux fois plus compact et offre une latence 2,5 fois inférieure à celle du DFN ViT-L/14. Le modèle entraîné et le code de génération de données sont accessibles au public.