본 논문은 대규모 다중 모달 모델(LMMs)의 복잡한 작업 처리 능력 제한을 해결하기 위해, 다단계 시각 기반 객체 중심 사고 연쇄 추론 프레임워크인 VoCoT를 제안합니다. VoCoT는 객체 중심 추론 경로와 시각 기반 다중 모달 객체 개념 표현을 특징으로 하며, 장기 생성 과정에서 모달 간 차이를 효과적으로 해소합니다. LMMs의 VoCoT 적용을 위해 instruction-tuning 데이터셋을 구축하고, 7B 파라미터의 VoCoT 기반 모델 VolCano를 개발했습니다. VolCano는 CLEVR 및 EmbSpatial과 같은 복잡한 추론 능력을 요구하는 벤치마크에서 GPT-4V를 포함한 최첨단 모델들을 능가하는 성능을 보여줍니다. 관련 코드, 데이터 및 모델은 깃허브에서 공개됩니다.