Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Las estructuras visuales ayudan al razonamiento visual: abordar el problema de la vinculación en los VLM

Created by
  • Haebom

Autor

Amirmohammad Izadi, Mohammad Ali Banayeeanzade, Fatemeh Askari, Ali Rahimiakbar, Mohammad Mahdi Vahedi, Hosein Hasani, Mahdieh Soleymani Baghshah

Describir

Este artículo propone VISER (Visual Input Structure for Enhanced Reasoning) para abordar las limitaciones de los modelos de lenguaje visual (VLM) en sus capacidades de razonamiento visual. Los VLM tienen dificultades para conectar de forma fiable las características perceptuales con los referentes visuales, lo que provoca errores en tareas como el cálculo, la búsqueda visual, la descripción de escenas y la comprensión de relaciones espaciales. VISER es un método sencillo pero eficaz para aumentar la entrada visual con una estructura espacial de bajo nivel y añadir indicaciones de texto que guían el análisis secuencial y espacial. Los resultados experimentales demuestran que VISER mejora significativamente el rendimiento de diversas tareas de razonamiento visual. Específicamente, mejora la precisión de la búsqueda visual en un 25,00 % y la precisión del cálculo en un 26,83 % en GPT-4o, reduce el error de distancia de edición en la descripción de escenas en un 0,32 % y mejora el rendimiento de las relaciones espaciales en un conjunto de datos sintéticos 2D en un 9,50 %. Esto resalta la importancia del diseño de entrada visual por sobre los enfoques puramente lingüísticos y sugiere que la estructuración visual de bajo nivel representa una dirección poderosa e inexplorada para mejorar el razonamiento visual constructivo.

Takeaways, Limitations

Takeaways:
Sugerimos que la estructuración visual de bajo nivel es una forma efectiva de mejorar la capacidad de razonamiento visual de VLM.
Se enfatiza la importancia del diseño de entrada visual por sobre los enfoques basados ​​puramente en el lenguaje.
VISER demuestra su eficiencia al mejorar el problema de vinculación con una única inferencia de consulta.
Logramos mejoras de rendimiento en una variedad de tareas de razonamiento visual, incluida la búsqueda visual, el cálculo, la descripción de escenas y la comprensión de las relaciones espaciales.
Limitations:
Actualmente, solo se presentan resultados para conjuntos de datos sintéticos 2D y se necesita más investigación para determinar la generalización a conjuntos de datos del mundo real.
Falta análisis sobre el costo computacional y la escalabilidad del método propuesto.
Se necesitan más investigaciones para determinar la generalización en diferentes arquitecturas VLM.
👍