[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Los VLM tienen visión de túnel: evaluación del razonamiento visual no local en los VLM líderes

Created by
  • Haebom

Autor

Shmuel Berman, Jia Deng

Describir

En este artículo, presentamos un novedoso método de evaluación para evaluar la capacidad de razonamiento visual no local de los modelos de lenguaje visual (MLV). El razonamiento visual no local se refiere al razonamiento que conecta la evidencia recopilada de múltiples regiones de una imagen y lo clasificamos en tres tipos: percepción comparativa, búsqueda de salto y búsqueda visual fluida. Nuestros experimentos con MLV de última generación, como Gemini 2.5 Pro, Claude Vision 3.7 y GPT-o4-mini, muestran que estos modelos apenas superan la precisión aleatoria en tareas simples para humanos. Esto sugiere que, si bien los MLV tienen un buen rendimiento en los parámetros de visión primitiva, carecen de capacidades clave de razonamiento visual. Este estudio proporciona un conjunto de evaluación estructurada para verificar si los MLV pueden ejecutar algoritmos de visión similares a los humanos.

Takeaways, Limitations

Takeaways: Demostramos que los VLM de última generación actuales presentan serias limitaciones en la capacidad de razonamiento visual no local. Incluso en tareas visuales sencillas, su rendimiento es muy inferior al del ser humano, lo que proporciona información importante Takeaways para futuras líneas de desarrollo de VLM. El método de evaluación presentado en este estudio puede ser una herramienta útil para evaluar objetivamente la capacidad de razonamiento visual de los VLM.
Limitations: Este estudio se centra únicamente en un tipo específico de tarea de razonamiento visual no local, por lo que es difícil afirmar que evalúa exhaustivamente la capacidad general de razonamiento visual de los VLM. Es necesario ampliar el alcance de la evaluación añadiendo varios tipos de tareas de razonamiento visual. Además, las características del conjunto de datos de imágenes utilizado para la evaluación pueden afectar los resultados.
👍