Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Mejorar el razonamiento espacial mediante el pensamiento visual y textual

Created by
  • Haebom

Autor

Xun Liang, Xin Guo, Zhongming Jin, Weihang Pan, Penghui Shang, Deng Cai, Binbin Lin, Jieping Ye

Describir

Este artículo aborda tareas de razonamiento espacial que buscan inferir relaciones espaciales en espacios 2D y 3D, una capacidad fundamental en la respuesta visual a preguntas (VQA) y la robótica. Destacamos las dificultades que enfrentan los modelos de lenguaje visual (VLM) existentes en tareas de razonamiento espacial y proponemos SpatialVTS, un método que aprovecha simultáneamente el razonamiento visual y verbal para mejorar las capacidades de razonamiento espacial. En la etapa de razonamiento visual, SpatialVTS genera automáticamente tokens específicos relacionados con la ubicación de objetos esenciales y considera no solo los objetos mencionados en el problema, sino también los objetos potenciales relevantes para la inferencia. En la etapa de razonamiento verbal, SpatialVTS realiza un razonamiento a largo plazo basado en señales visuales y conversaciones para inferir progresivamente la respuesta al problema de razonamiento espacial. Las modificaciones manuales de los conjuntos de datos de razonamiento espacial existentes eliminan las etiquetas incorrectas resultantes de las anotaciones automatizadas, reestructuran el formato de entrada de datos para mejorar la generalización y desarrollan un proceso de pensamiento que incorpora detalles de razonamiento lógico para respaldar eficazmente el aprendizaje del modelo. El método propuesto mejora significativamente el rendimiento en múltiples tareas de comprensión espacial en comparación con otros modelos, incluso sin información adicional (por ejemplo, máscaras o información de profundidad).

Takeaways, Limitations

Takeaways:
Presentamos la posibilidad de mejorar el rendimiento del razonamiento espacial de los VLM existentes a través del método SpatialVTS, que utiliza simultáneamente el pensamiento visual y verbal.
Mejorar la capacidad de generalización de los modelos mediante la corrección manual de datos y mejoras en los formatos de ingreso de datos.
Lograr un mejor rendimiento de inferencia espacial sin información adicional.
Limitations:
La mejora del rendimiento del método propuesto puede limitarse a conjuntos de datos específicos.
El consumo de tiempo y recursos de los procesos manuales de corrección de datos.
Falta de evaluación del desempeño de generalización para diferentes tipos de problemas de razonamiento espacial.
👍