Để Giải quyết những hạn chế của các mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM), vốn vẫn đang gặp khó khăn với các tác vụ thị giác phức tạp (ví dụ: hiểu biết không gian và nhận thức chi tiết), bài báo này trình bày SIFThinker, một khuôn khổ "tư duy bằng hình ảnh" có nhận thức không gian, mô phỏng nhận thức thị giác của con người. SIFThinker giao thoa các hộp giới hạn được tăng cường độ sâu với ngôn ngữ tự nhiên để cho phép điều chỉnh sự chú ý và tập trung vào các vùng hình ảnh. Sử dụng chiến lược suy luận mở rộng ngược-tới-trước, chúng tôi xây dựng một quy trình suy nghĩ từ hình ảnh sang văn bản để giám sát ở cấp độ quy trình, sau đó chúng tôi xây dựng tập dữ liệu SIF-50K. Hơn nữa, chúng tôi đề xuất GRPO-SIF, một mô hình học tăng cường tích hợp bằng chứng thị giác được tăng cường độ sâu, để huấn luyện các mô hình tự động điều chỉnh và tập trung vào các vùng liên quan đến dấu nhắc. Kết quả thực nghiệm chứng minh rằng SIFThinker vượt trội hơn các phương pháp tiên tiến về hiểu biết không gian và nhận thức thị giác chi tiết trong khi vẫn duy trì hiệu suất chung.