본 논문은 기존의 다중 모달 사고 연쇄(MCoT) 벤치마크의 한계점을 지적하며, 시각적 연산 부재와 모호한 표현 등의 문제를 해결하기 위해 새로운 벤치마크인 사슬형 다중 모달 사고(CoMT)를 제안합니다. CoMT는 다중 모달 입력과 다중 모달 추론 출력을 모두 요구하며, 시각적 연산을 통합하는 인간과 유사한 추론을 모방하고자 합니다. 구체적으로 시각 생성, 삭제, 업데이트, 선택의 네 가지 범주로 구성되어 복잡한 시각적 연산과 간결한 표현을 포괄적으로 탐구합니다. 다양한 LVLMs과 전략을 CoMT에서 평가하여 현재 접근 방식의 능력과 한계에 대한 통찰력을 제시하고, 추론 과정에 다중 모달 생성을 도입하는 연구를 촉진하고자 합니다.