Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

CAPTURe: Evaluación del razonamiento espacial en modelos de lenguaje visual mediante el conteo de objetos ocluidos

Created by
  • Haebom

Autor

Atin Pothiraj, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal

Describir

Este artículo presenta una nueva tarea, CAPTURe (Counting Amodally for Patterns Through Unseen Regions), para evaluar la capacidad de un modelo para inferir patrones ocultos tras regiones ocluidas. CAPTURe requiere que el modelo cuente objetos infiriendo patrones ocultos tras regiones ocluidas, evaluando tanto el reconocimiento de patrones visuales como la inferencia. Consta de dos versiones: CAPTURe-real, que utiliza imágenes de objetos reales, y CAPTURe-synthetic, que utiliza imágenes generadas. Evaluamos cuatro potentes VLM (GPT-4o, Intern-VL2, Molmo y Qwen2-VL) y descubrimos que su rendimiento era bajo tanto en patrones ocluidos como no ocluidos, y que su rendimiento se deterioraba aún más cuando estaban ocluidos. Esto sugiere que los VLM tienen dificultades para inferir relaciones espaciales invisibles. Por el contrario, los humanos mostraron tasas de error muy bajas en CAPTURe. Proporcionar información adicional sobre la ubicación de los objetos ocluidos mejoró el rendimiento, lo que sugiere que los errores del modelo se deben tanto a su incapacidad para manejar la oclusión como a su dificultad para contar dentro de la imagen.

Takeaways, Limitations

Takeaways:
Presentamos CAPTURe, un nuevo referente para evaluar la capacidad de razonamiento sobre objetos ocluidos.
Los potentes VLM actuales muestran una falta de inferencia y comprensión espacial de los objetos ocluidos.
Sugerir futuras direcciones de investigación para mejorar el rendimiento de VLM (mejora de la inferencia de información ocluida, el reconocimiento de patrones visuales y las capacidades de razonamiento).
Presentando futuras direcciones de desarrollo de VLM a través de las diferencias de desempeño entre humanos y VLM.
Limitations:
El tamaño del conjunto de datos CAPTURe puede ser limitado.
Los tipos de modelos VLM utilizados en la evaluación pueden ser limitados.
Puede que no refleje plenamente las complejas escenas visuales del mundo real.
Proporcionar información adicional mejora el rendimiento, demostrando que las fuentes de error del modelo son multicapa, pero carece de un análisis cuantitativo de cada causa.
👍