본 논문은 Chain-of-thought (CoT) 추론이 대형 시각-언어 모델 (LVLM)의 성능을 향상시키지만, 이러한 추론 과정이 모델의 내부 프로세스를 충실히 반영하는지에 대한 의문을 제기하며, CoT 충실성에 대한 연구를 수행한다. 특히 텍스트 기반 및 이미지 기반 편향이 추론과 편향 표현에 미치는 영향을 조사하고, 새로운 세분화된 평가 파이프라인을 도입하여 CoT 추론을 정밀하게 분석한다. 이 프레임워크를 통해 모델이 다양한 유형의 편향에 어떻게 반응하는지에 대한 새로운 통찰력을 얻고, 모델이 "불일치" 추론 현상을 보일 수 있음을 발견한다. 또한, 동일한 평가 파이프라인을 사용하여 다양한 수준의 암시적 단서에 대한 LLM의 CoT 충실성을 재검토한다.