본 논문은 시각 언어 모델(VLMs)에서 사고 과정(Chain-of-Thought, CoT) 프롬프팅의 성능 향상을 위한 새로운 방법인 Interleaved-modal Chain-of-Thought (ICoT)를 제안합니다. 기존의 CoT 프롬프팅은 텍스트 기반 추론만으로는 시각 정보와의 미묘한 연관성을 표현하는 데 어려움이 있었으나, ICoT는 시각적 및 텍스트적 추론 단계를 쌍으로 생성하여 이 문제를 해결합니다. 이를 위해 기존 VLMs에 적용 가능한 플러그 앤 플레이 전략인 Attention-driven Selection (ADS)을 제안합니다. ADS는 VLMs의 어텐션 맵을 이용하여 입력 이미지의 특정 영역을 추론 과정에 지능적으로 삽입하며, 추가적인 지연 시간 없이 interleaved-modal reasoning steps을 생성합니다. 두 가지 다른 아키텍처의 VLMs에 ADS를 적용하여 세 가지 벤치마크에서 기존의 다중 모달 CoT 프롬프팅 방법에 비해 최대 14%의 성능 향상과 해석력 향상을 달성했습니다.