Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

MobileCLIP2: Mejora del entrenamiento reforzado multimodal

Created by
  • Haebom

Autor

Fartash Faghri, Pavan Kumar Anasosalu Vasu, Cem Koc, Vaishaal Shankar, Alexander Toshev, Oncel Tuzel, Hadi Pouransari

Describir

MobileCLIP es un modelo de imagen a texto que logra una precisión de disparo cero de vanguardia con una baja latencia de 3-15 ms y parámetros que oscilan entre 50 y 150 millones. En este artículo, presentamos MobileCLIP2, una versión mejorada del aprendizaje por refuerzo multimodal. Estas mejoras incluyen un conjunto de profesores CLIP mejorado, entrenado con el conjunto de datos DFN, y un profesor generador de subtítulos mejorado, optimizado con diversos conjuntos de datos de subtítulos de imagen de alta calidad. Demostramos experimentalmente la importancia del ajuste de temperatura en la destilación de conocimiento contrastivo, la eficacia del ajuste del generador de subtítulos para la diversidad de subtítulos y mejoras adicionales en la combinación de subtítulos sintéticos generados por múltiples modelos. En consecuencia, MobileCLIP2 logra una precisión de disparo cero de vanguardia en ImageNet-1k, y MobileCLIP2-B logra una mejora del 2,2 % en la precisión con respecto a MobileCLIP-B. El MobileCLIP2-S4 alcanza la misma precisión de disparo cero que el SigLIP-SO400M/14, pero es el doble de pequeño y tiene una latencia 2,5 veces menor que el DFN ViT-L/14. El modelo entrenado y el código de generación de datos están disponibles públicamente.

Takeaways, Limitations

Takeaways:
Presentamos el modelo MobileCLIP2, que mejora el aprendizaje de refuerzo multimodal y supera a MobileCLIP.
Logrando una precisión de disparo cero de última generación en ImageNet-1k.
Rendimiento mejorado manteniendo baja latencia y tamaño de modelo pequeño.
Verificación experimental de la efectividad del ajuste de temperatura, el ajuste fino del generador de subtítulos y los subtítulos sintéticos multimodelo.
Liberación de modelos entrenados y código de generación de datos para investigación reproducible.
Limitations:
Se necesitan más investigaciones para determinar si las mejoras presentadas en este artículo se pueden aplicar a otros modelos de imagen-texto.
Es posible optimizar el rendimiento de un conjunto de datos específico. Se requiere una evaluación del rendimiento en otros conjuntos de datos.
👍