Para abordar las limitaciones de los modelos multimodales de lenguaje a gran escala (MLLM), que aún presentan dificultades con tareas visuales complejas (p. ej., comprensión espacial y percepción de grano fino), este artículo presenta SIFThinker, un marco de "pensamiento con imágenes" con conciencia espacial que imita la percepción visual humana. SIFThinker intersecta cuadros delimitadores con profundidad mejorada con lenguaje natural para permitir la modificación atencional y la focalización en regiones de la imagen. Mediante una estrategia de inferencia de retroexpansión y avance, construimos un proceso de pensamiento de imagen a texto para la supervisión a nivel de proceso, que posteriormente construimos en el conjunto de datos SIF-50K. Además, proponemos GRPO-SIF, un paradigma de aprendizaje por refuerzo que integra evidencia visual con profundidad mejorada, para entrenar modelos que modifiquen y se enfoquen dinámicamente en regiones relevantes para las indicaciones. Los resultados experimentales demuestran que SIFThinker supera a los métodos más avanzados en comprensión espacial y percepción visual de grano fino, manteniendo un rendimiento general.