Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Explique antes de responder: una encuesta sobre razonamiento visual compositivo

Created by
  • Haebom

Autor

Fucai Ke, Joy Hsu, Zhixi Cai, Zixian Ma, Xin Zheng, Xindi Wu, Sukai Huang, Weiqing Wang, Pari Delir Haghighi, Gholamreza Haffari, Ranjay Krishna, Jiajun Wu, Hamid Rezatofighi

Describir

Este artículo presenta un estudio exhaustivo del campo del razonamiento visual compositivo (CVR), analizando más de 260 artículos publicados entre 2023 y 2025. El CVR busca capacitar a las máquinas para descomponer escenas visuales y realizar razonamiento lógico de múltiples pasos basado en conceptos intermedios, de forma similar a los humanos. Definimos las ventajas de los enfoques compositivos (alineamiento cognitivo, fidelidad semántica, robustez, interpretabilidad y eficiencia de datos) y trazamos cinco cambios de paradigma: desde canales basados ​​en indicaciones y centrados en el lenguaje hasta LLM y VLM basados ​​en herramientas, razonamiento en cadena de pensamiento y VLM con agente integrado. Presentamos más de 60 puntos de referencia y métricas, destacando perspectivas clave, desafíos (p. ej., limitaciones del razonamiento basado en LLM, alucinaciones, sesgos en el razonamiento deductivo, supervisión escalable, integración de herramientas y limitaciones de los puntos de referencia) y direcciones futuras (p. ej., integración de modelos mundiales, razonamiento colaborativo humano-IA y protocolos de evaluación más completos).

Takeaways, Limitations

Takeaways:
Proporciona una revisión sistemática y un análisis integral del campo del razonamiento visual constructivo.
Comprender las tendencias de investigación mediante cambios de paradigma en cinco pasos
Presentación de diversos puntos de referencia e indicadores
Aclarando las ventajas y limitaciones del enfoque constructivo
Sugerencias para futuras direcciones de investigación
Limitations:
Limitaciones de la inferencia basada en LLM
Problemas de alucinaciones
Sesgo hacia el razonamiento deductivo
Ausencia de supervisión escalable
Dificultades en la integración de herramientas
Limitaciones de los puntos de referencia
👍