[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Generalización de modelos de visión-lenguaje a nuevos dominios: un estudio exhaustivo

Created by
  • Haebom

Autor

Xinyao Li, Jingjing Li, Fengling Li, Lei Zhu, Yang Yang, Heng Tao Shen

Describir

Este artículo aborda el problema de generalización de los modelos de preentrenamiento de visión-lenguaje (VLM). Los VLM que utilizan datos a escala web tienen un excelente rendimiento de disparo cero, pero presentan limitaciones debido a que su rendimiento se deteriora en dominios específicos o tareas especializadas. Mientras se lleva a cabo investigación activa para resolver este problema, este artículo analiza exhaustivamente los métodos para transferir o generalizar el conocimiento de los VLM a diversas subtareas. Con base en la estructura de los VLM, los clasificamos en métodos basados ​​en indicaciones, basados ​​en parámetros y basados ​​en características, y discutimos las diferencias y características de cada método según el entorno de aprendizaje por transferencia (TL). Además, presentamos un punto de referencia para la generalización de VLM, comparamos y analizamos el rendimiento de los métodos revisados, y discutimos la relación y las diferencias entre los VLM y los recientemente emergentes modelos multimodales de lenguaje a gran escala (MLLM). En conclusión, este artículo revisa sistemáticamente las últimas tendencias en la investigación de visión-lenguaje desde una perspectiva de generalización y sugiere el estado actual y las futuras direcciones de investigación.

Takeaways, Limitations

Takeaways:
Proporcionamos un análisis exhaustivo del problema de generalización de los VLM.
Clasificamos y comparamos sistemáticamente varias metodologías de generalización, incluidas las basadas en indicaciones, las basadas en parámetros y las basadas en características.
Presentamos puntos de referencia clave y resultados de comparación de rendimiento para la generalización de VLM.
Analizamos la relación y las diferencias entre VLM y MLLM y sugerimos futuras direcciones de investigación.
Limitations:
Es posible que se necesite una validación adicional sobre la objetividad y generalización del esquema de clasificación y el análisis presentados en el artículo.
Se necesitan actualizaciones continuas para reflejar las últimas tendencias de investigación.
Puede que falten sugerencias específicas para mejorar el rendimiento de generalización para dominios o tareas específicos.
👍