Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

SIFThinker: Enfoque de imágenes con conciencia espacial para el razonamiento visual

Created by
  • Haebom

Autor

Zhangquan Chen, Ruihui Zhao, Chuwei Luo, Mingze Sun, Xinlei Yu, Yangyang Kang, Ruqi Huang

Describir

Para abordar las limitaciones de los modelos multimodales de lenguaje a gran escala (MLLM), que aún presentan dificultades con tareas visuales complejas (p. ej., comprensión espacial y percepción de grano fino), este artículo presenta SIFThinker, un marco de "pensamiento con imágenes" con conciencia espacial que imita la percepción visual humana. SIFThinker intersecta cuadros delimitadores con profundidad mejorada con lenguaje natural para permitir la modificación atencional y la focalización en regiones de la imagen. Mediante una estrategia de inferencia de retroexpansión y avance, construimos un proceso de pensamiento de imagen a texto para la supervisión a nivel de proceso, que posteriormente construimos en el conjunto de datos SIF-50K. Además, proponemos GRPO-SIF, un paradigma de aprendizaje por refuerzo que integra evidencia visual con profundidad mejorada, para entrenar modelos que modifiquen y se enfoquen dinámicamente en regiones relevantes para las indicaciones. Los resultados experimentales demuestran que SIFThinker supera a los métodos más avanzados en comprensión espacial y percepción visual de grano fino, manteniendo un rendimiento general.

Takeaways, Limitations

Takeaways:
Demostrar la eficacia de los mecanismos de modificación de la atención y de enfoque en la región de la imagen a través de la intersección de cuadros delimitadores mejorados en profundidad y lenguaje natural.
Presentamos la efectividad de la supervisión a nivel de proceso y la construcción del conjunto de datos SIF-50K utilizando una estrategia de inferencia de extensión hacia atrás y hacia adelante.
Demostración de la superioridad de una tubería de inferencia integrada basada en aprendizaje de refuerzo a través de GRPO-SIF.
Una combinación exitosa de comprensión espacial mejorada y rendimiento de percepción visual detallada, manteniendo al mismo tiempo el rendimiento general.
Limitations:
Es necesaria una revisión más profunda del tamaño y la diversidad del conjunto de datos SIF-50K.
Es necesario analizar el coste computacional y la eficiencia de aprendizaje de GRPO-SIF.
Se necesita una evaluación adicional del desempeño de generalización en diferentes tipos de tareas visuales.
Se necesita más investigación sobre la aplicabilidad y generalización a otras arquitecturas MLLM.
👍