MobileCLIP es un modelo de imagen a texto que logra una precisión de disparo cero de vanguardia con una baja latencia de 3-15 ms y parámetros que oscilan entre 50 y 150 millones. En este artículo, presentamos MobileCLIP2, una versión mejorada del aprendizaje por refuerzo multimodal. Estas mejoras incluyen un conjunto de profesores CLIP mejorado, entrenado con el conjunto de datos DFN, y un profesor generador de subtítulos mejorado, optimizado con diversos conjuntos de datos de subtítulos de imagen de alta calidad. Demostramos experimentalmente la importancia del ajuste de temperatura en la destilación de conocimiento contrastivo, la eficacia del ajuste del generador de subtítulos para la diversidad de subtítulos y mejoras adicionales en la combinación de subtítulos sintéticos generados por múltiples modelos. En consecuencia, MobileCLIP2 logra una precisión de disparo cero de vanguardia en ImageNet-1k, y MobileCLIP2-B logra una mejora del 2,2 % en la precisión con respecto a MobileCLIP-B. El MobileCLIP2-S4 alcanza la misma precisión de disparo cero que el SigLIP-SO400M/14, pero es el doble de pequeño y tiene una latencia 2,5 veces menor que el DFN ViT-L/14. El modelo entrenado y el código de generación de datos están disponibles públicamente.