본 논문은 복잡한 시각적 과제(예: 공간적 이해, 세밀한 인지)에서 여전히 어려움을 겪는 다중 모달 대규모 언어 모델(MLLM)의 한계를 해결하기 위해, 사람의 시각적 인지를 모방하는 공간 인식 "이미지와 함께 생각하기" 프레임워크인 SIFThinker를 제시합니다. SIFThinker는 심도 향상 경계 상자와 자연어를 교차하여 주의력 수정과 이미지 영역 집중을 가능하게 합니다. 역확장-순방향 추론 전략을 통해 프로세스 수준의 감독을 위한 이미지-텍스트 사고 과정을 생성하고, 이를 통해 SIF-50K 데이터셋을 구성합니다. 또한, 심도 정보를 활용한 시각적 근거를 통합한 강화 학습 패러다임인 GRPO-SIF를 제안하여 모델이 프롬프트 관련 영역을 동적으로 수정하고 집중하도록 학습시킵니다. 실험 결과, SIFThinker는 공간적 이해와 세밀한 시각적 인지에서 최첨단 방법들을 능가하면서도 일반적인 성능도 유지함을 보여줍니다.