최근의 대형 비전-언어 모델(LVLM)은 강화 미세 조정(RFT)을 통해 비전-텍스트 멀티모달 사고 연쇄(MCoT) 추론을 생성할 수 있지만, MCoT에 포함된 시각적 정보는 정확성이 떨어지는 경우가 많아 추론 과정의 충실도가 부족하다는 점을 발견했습니다. 이는 RFT의 RL 보상이 시각적 정보의 정확성을 고려하지 않고 텍스트 추론 단계에 시각적 정보를 통합하도록 장려하기 때문입니다. 본 논문에서는 MCoT의 충실도를 분석하기 위해 시각적 및 텍스트적 사고를 개입하여 예측 변화를 측정했습니다. 그 결과, 시각적 개입에서는 예측이 거의 변하지 않고 텍스트 개입에서는 크게 변화하여 시각적 증거가 무시됨을 확인했습니다. 또한, 자동화된 LVLM 기반 평가 지표를 도입하여 시각적 단서의 충실도를 신뢰성과 충분성 측면에서 정량화했습니다. 평가 결과 현재 MCoT 추론의 시각적 정보가 신뢰할 수 없고 불충분하다는 것을 확인했습니다. 이러한 문제를 해결하기 위해, 충분하고 최소한의 시각적 구성 요소를 생성하여 정답에 도달하도록 유도하는 새로운 MCoT 학습 전략인 SCCM (Sufficient-Component Cause Model) 학습을 제안했습니다. SCCM은 주석이 필요 없고 다양한 MCoT RFT와 플러그 앤 플레이 방식으로 호환됩니다. 실험 결과, SCCM은 세분화된 인식 및 추론 벤치마크 전반에서 시각적 충실도를 지속적으로 향상시켰습니다.