Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Rompecabezas: De la visión a la comprensión y al razonamiento en modelos de visión-lenguaje

Created by
  • Haebom

Autor

Zesen Lyu, Dandan Zhang, Wei Ye, Fangdi Li, Zhihang Jiang, Yao Yang

Describir

Este artículo presenta Jigsaw-Puzzles, un nuevo referente para evaluar la capacidad de razonamiento espacial de los modelos de visión-lenguaje (VLM). Jigsaw-Puzzles consta de 1100 imágenes del mundo real con alta complejidad espacial e incluye cinco tareas que evalúan la percepción espacial, la comprensión de estructuras y el razonamiento. Al compararlo con 24 VLM de última generación, incluso el modelo de mayor rendimiento, Gemini-2.5-Pro, alcanzó una precisión general de tan solo el 77,14 %, y en particular, solo el 30 % en la tarea de generación de secuencias, significativamente inferior al rendimiento superior al 90 % de los participantes humanos. Esto resalta la necesidad de continuar la investigación para mejorar la capacidad de razonamiento espacial de los VLM.

Takeaways, Limitations

Takeaways:
Se presenta un nuevo punto de referencia (Jigsaw-Puzzles) para evaluar objetivamente las capacidades de razonamiento espacial de los VLM.
Demostrando claramente las limitaciones de las capacidades de razonamiento espacial de los VLM de última generación.
Sugerir direcciones para la investigación del razonamiento espacial en VLM (especialmente la necesidad de mejorar el desempeño en tareas de generación de secuencias)
Limitations:
El tamaño del conjunto de datos Jigsaw-Puzzles puede ser relativamente pequeño.
Los tipos de tareas de evaluación pueden ser limitados.
Puede que no refleje perfectamente las diversas situaciones espaciales del mundo real.
👍