Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
Mejora del razonamiento espacial en modelos de visión y lenguaje mediante estimulación de la cadena de pensamiento y aprendizaje por refuerzo
Created by
Haebom
Autor
Binbin Ji, Siddharth Agrawal, Qiance Tang, Yvonne Wu
Describir
Este estudio investiga la capacidad de razonamiento espacial de los modelos visuales de lenguaje (VLM) mediante la incitación en cadena de pensamiento (CoT) y el aprendizaje por refuerzo. Observamos que, si bien las formulaciones simples de CoT no mejoran el rendimiento, ni siquiera lo reducen, la incitación estructurada multietapa basada en grafos visuales (SceneGraph CoT) mejora significativamente la precisión del razonamiento espacial. Ajustamos el modelo en el conjunto de datos SAT mediante la Optimización de Políticas Relativa de Grupo (GRPO) y evaluamos su rendimiento en CVBench. En comparación con el ajuste fino supervisado (SFT), GRPO logra una mayor precisión en la evaluación de Pase a 1 y muestra una buena robustez en condiciones fuera de distribución (OOD). En particular, SFT sobreajusta los patrones lingüísticos superficiales, lo que puede provocar una degradación del rendimiento cuando la sintaxis cambia en el momento de la prueba (p. ej., de "más cerca de" a "más lejos de"), mientras que GRPO generaliza con mayor fiabilidad y mantiene un rendimiento estable ante dichos cambios. Nuestros resultados ofrecen información sobre cómo el aprendizaje por refuerzo y la estimulación estructurada pueden mejorar la capacidad de razonamiento espacial y la generalización de los VLM de última generación. Todo el código está disponible públicamente en https://github.com/Yvonne511/spatial-vlm-investigator .