Este artículo aborda tareas de razonamiento espacial que buscan inferir relaciones espaciales en espacios 2D y 3D, una capacidad fundamental en la respuesta visual a preguntas (VQA) y la robótica. Destacamos las dificultades que enfrentan los modelos de lenguaje visual (VLM) existentes en tareas de razonamiento espacial y proponemos SpatialVTS, un método que aprovecha simultáneamente el razonamiento visual y verbal para mejorar las capacidades de razonamiento espacial. En la etapa de razonamiento visual, SpatialVTS genera automáticamente tokens específicos relacionados con la ubicación de objetos esenciales y considera no solo los objetos mencionados en el problema, sino también los objetos potenciales relevantes para la inferencia. En la etapa de razonamiento verbal, SpatialVTS realiza un razonamiento a largo plazo basado en señales visuales y conversaciones para inferir progresivamente la respuesta al problema de razonamiento espacial. Las modificaciones manuales de los conjuntos de datos de razonamiento espacial existentes eliminan las etiquetas incorrectas resultantes de las anotaciones automatizadas, reestructuran el formato de entrada de datos para mejorar la generalización y desarrollan un proceso de pensamiento que incorpora detalles de razonamiento lógico para respaldar eficazmente el aprendizaje del modelo. El método propuesto mejora significativamente el rendimiento en múltiples tareas de comprensión espacial en comparación con otros modelos, incluso sin información adicional (por ejemplo, máscaras o información de profundidad).