본 논문은 기존 객체 인식에서 복잡한 지능형 추론으로 진화하는 원격 감지 이미지 분석 작업의 요구 사항을 충족하기 위해, 시각적 도구를 사고 과정에 동적으로 통합하는 Vision-Interleaved Chain-of-Thought Framework (VICoT)라는 새로운 다중 모드 에이전트 프레임워크를 제안합니다. VICoT는 스택 기반 추론 구조와 모듈식 MCP 호환 도구 모음을 통해 대규모 언어 모델(LLM)이 강력한 일반화 및 유연성을 갖춘 다중 라운드, 인터리브된 시각-언어 추론 작업을 효율적으로 수행할 수 있도록 합니다. 또한, 복잡한 에이전트 동작을 작고 가벼운 모델로 이전하는 Reasoning Stack 증류 방법을 제안하여 복잡성을 크게 줄이면서 추론 능력을 보장합니다. 여러 원격 감지 벤치마크 실험 결과, VICoT가 추론 투명성, 실행 효율성 및 생성 품질 측면에서 기존 SOTA 프레임워크를 크게 능가했습니다.