Este artículo señala que la principal causa de la baja capacidad de razonamiento visual del Modelo Visión-Lenguaje (VLM) es la falla del problema de enlace entre las características visuales y sus objetivos. Los VLM existentes procesan principalmente las características visuales en paralelo y carecen de un mecanismo de atención secuencial espacial. Para resolver este problema, este artículo presenta un método simple pero efectivo que agrega estructuras espaciales de bajo nivel (p. ej., líneas horizontales) a la entrada visual y utiliza indicaciones de texto para inducir un análisis secuencial con conciencia espacial. Los resultados experimentales muestran mejoras significativas en el rendimiento en diversas tareas de razonamiento visual, incluyendo un 25% de precisión de búsqueda visual, un 26,83% de precisión de cálculo, una reducción del 0,32% en el error de distancia de edición en la descripción de escenas y una mejora del 9,5% en el rendimiento en la tarea de relación espacial. Confirmamos que los enfoques puramente lingüísticos (p. ej., la inducción en cadena de pensamiento) son ineficaces o incluso degradan el rendimiento, mientras que la modificación visual es esencial. El resultado de mejorar el problema de enlace con solo la inferencia de consulta única enfatiza la importancia del diseño de la entrada visual. La estructuración visual de bajo nivel representa una dirección poderosa y poco explorada para mejorar el razonamiento visual constructivo, lo que sugiere que podría servir como una estrategia general para mejorar el desempeño de VLM en tareas basadas en el espacio.