[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Mejora del razonamiento espacial en modelos de visión y lenguaje mediante estimulación de la cadena de pensamiento y aprendizaje por refuerzo

Created by
  • Haebom

Autor

Binbin Ji, Siddharth Agrawal, Qiance Tang, Yvonne Wu

Describir

Este estudio investiga la capacidad de razonamiento espacial de los modelos visuales de lenguaje (VLM) mediante la incitación en cadena de pensamiento (CoT) y el aprendizaje por refuerzo. Observamos que, si bien las formulaciones simples de CoT no mejoran el rendimiento, ni siquiera lo reducen, la incitación estructurada multietapa basada en grafos visuales (SceneGraph CoT) mejora significativamente la precisión del razonamiento espacial. Ajustamos el modelo en el conjunto de datos SAT mediante la Optimización de Políticas Relativa de Grupo (GRPO) y evaluamos su rendimiento en CVBench. En comparación con el ajuste fino supervisado (SFT), GRPO logra una mayor precisión en la evaluación de Pase a 1 y muestra una buena robustez en condiciones fuera de distribución (OOD). En particular, SFT sobreajusta los patrones lingüísticos superficiales, lo que puede provocar una degradación del rendimiento cuando la sintaxis cambia en el momento de la prueba (p. ej., de "más cerca de" a "más lejos de"), mientras que GRPO generaliza con mayor fiabilidad y mantiene un rendimiento estable ante dichos cambios. Nuestros resultados ofrecen información sobre cómo el aprendizaje por refuerzo y la estimulación estructurada pueden mejorar la capacidad de razonamiento espacial y la generalización de los VLM de última generación. Todo el código está disponible públicamente en https://github.com/Yvonne511/spatial-vlm-investigator .

Takeaways, Limitations

Takeaways:
Demostramos que la estimulación CoT de SceneGraph mejora el rendimiento de inferencia espacial de los VLM.
Lograr mayor precisión y robustez OOD que SFT a través del aprendizaje de refuerzo basado en GRPO.
Presentamos el problema de sobreajuste de SFT y la excelente capacidad de generalización de GRPO.
Se presenta una nueva metodología para mejorar la capacidad de razonamiento espacial de los VLM.
Limitations:
Se necesita más investigación sobre la generalización del conjunto de datos y el modelo utilizado en el estudio.
Es necesaria una evaluación del desempeño de GRPO en otros tipos de problemas de razonamiento espacial.
Se necesita un análisis más profundo del coste computacional y la eficiencia de GRPO.
👍