Este artículo propone VISER (Visual Input Structure for Enhanced Reasoning) para abordar las limitaciones de los modelos de lenguaje visual (VLM) en sus capacidades de razonamiento visual. Los VLM tienen dificultades para conectar de forma fiable las características perceptuales con los referentes visuales, lo que provoca errores en tareas como el cálculo, la búsqueda visual, la descripción de escenas y la comprensión de relaciones espaciales. VISER es un método sencillo pero eficaz para aumentar la entrada visual con una estructura espacial de bajo nivel y añadir indicaciones de texto que guían el análisis secuencial y espacial. Los resultados experimentales demuestran que VISER mejora significativamente el rendimiento de diversas tareas de razonamiento visual. Específicamente, mejora la precisión de la búsqueda visual en un 25,00 % y la precisión del cálculo en un 26,83 % en GPT-4o, reduce el error de distancia de edición en la descripción de escenas en un 0,32 % y mejora el rendimiento de las relaciones espaciales en un conjunto de datos sintéticos 2D en un 9,50 %. Esto resalta la importancia del diseño de entrada visual por sobre los enfoques puramente lingüísticos y sugiere que la estructuración visual de bajo nivel representa una dirección poderosa e inexplorada para mejorar el razonamiento visual constructivo.