Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Evaluación de la generalización compositiva en modelos VLM y de difusión

Created by
  • Haebom

Autor

Beth Pearson, Bilal Boulbarss, Michael Wray, Martha Lewis

Describir

Este artículo evalúa el rendimiento del Modelo de Visión-Lenguaje (VLM) en un aspecto fundamental de la semántica del lenguaje natural: la capacidad de formar nuevos significados mediante la combinación de partes existentes. Observamos que los VLM, como CLIP, tienden a representar imágenes como si fueran un conjunto de palabras, lo que impide capturar adecuadamente el significado compositivo. Investigamos si un clasificador generativo, basado en un modelo de difusión, puede superar esta limitación. Evaluamos la capacidad de tres modelos (el Clasificador de Difusión, CLIP y ViLT) para combinar objetos, atributos y relaciones en entornos de aprendizaje de disparo cero (ZSL) y aprendizaje de disparo cero generalizado (GZSL). Nuestros resultados experimentales demuestran que, si bien el Clasificador de Difusión y ViLT tienen un buen rendimiento en tareas de combinación de conceptos, todos los modelos presentan dificultades en tareas relacionales de GZSL, lo que pone de relieve los desafíos del VLM en la inferencia relacional. El análisis de la integración de CLIP sugiere que la dificultad radica en la excesiva similitud en la representación de conceptos relacionales como "izquierda" y "derecha".

Takeaways, Limitations

Takeaways: Esto sugiere que los clasificadores basados ​​en modelos de difusión podrían tener una capacidad de generalización configuracional mejorada en comparación con los VLM convencionales. El rendimiento superior del Clasificador de Difusión y ViLT en tareas de asociación de conceptos es particularmente notable.
Limitations: El hecho de que todos los modelos presenten dificultades significativas con la tarea GZSL relacional sugiere la necesidad de investigar más a fondo las capacidades de inferencia relacional de VLM. Si bien el análisis de incrustación CLIP proporciona algunas pistas sobre la causa, se requiere un análisis más profundo. Además del problema de similitud en las representaciones de conceptos relacionales, otros factores pueden contribuir al bajo rendimiento de inferencia relacional de VLM.
👍