Afin de pallier les limites des modèles linguistiques multimodaux à grande échelle (MLLM), qui peinent encore à gérer des tâches visuelles complexes (par exemple, la compréhension spatiale et la perception fine), cet article présente SIFThinker, un cadre de réflexion spatialement conscient et imagé qui imite la perception visuelle humaine. SIFThinker croise des cadres englobants à profondeur améliorée avec le langage naturel pour permettre la modification attentionnelle et la focalisation sur les régions de l'image. À l'aide d'une stratégie d'inférence rétro-expansion-avant, nous construisons un processus de pensée image-texte pour la supervision au niveau du processus, à partir duquel nous construisons ensuite le jeu de données SIF-50K. De plus, nous proposons GRPO-SIF, un paradigme d'apprentissage par renforcement intégrant des preuves visuelles à profondeur améliorée, pour entraîner les modèles à modifier et focaliser dynamiquement sur les régions pertinentes pour les invites. Les résultats expérimentaux démontrent que SIFThinker surpasse les méthodes de pointe en matière de compréhension spatiale et de perception visuelle fine, tout en maintenant ses performances générales.